今天開個車,帶大家通過資料認識下91P**n(以下簡稱91)這個網站。
之前一個假期學習了Python爬蟲,於是拿91試試手,發現91非常容易爬取,獲取頁面時只要使用cookies即可,於是果斷按照“收藏最多”排行榜爬下來全站77000條視訊,注意到網站上的視訊每天都是增長的,現在已經78000+了,我們忽略不計其中的最後的一千多,姑且當做我們爬去下來的77000條視訊就是全站資料。我爬取了七個維度的資料(視訊連結,視訊名稱,視訊時長,上傳時間,視訊作者,作者連結,視訊瀏覽數,視訊收藏數,視訊留言數),當然有意義的主要是其中的五條,連結的分析意義不大,主要是我用來再次觀察的(?)。
一共有20929位上傳者為這77000個視訊做出了自己的貢獻,嗯,感謝他們。
首先上一張全站視訊名稱的的詞雲圖吧,因為種種原因從網站爬取下來的視訊名稱是英文的,懶得再改了。
視訊名稱中出現次數最高的當然是我們的膾炙人口的“fuck”啦,除去一些和視訊內容本身和相關描述的相關詞,發現很有意思的是wechat(微信)出現的頻率也是相當高,看來微信的國民首席yp軟體地位保持得非常穩,秒殺所謂陌陌,探探之流。
值得注意的是出現頻率最高的兩個地名是北京和上海,這個大家都可以理解,畢竟“城會玩”嘛。
另外還有verification(認證)這個詞頻率很高,因為91的視訊講究在拍攝時證明是自己拍的,而不是盜來的視訊說是自己拍的。證明的過程大概就是用手分別表示出“9”和“1”,或者直接寫在紙上,所以這個詞上榜也不奇怪了。
瀏覽次數排行榜Top20
瀏覽次數最高的視訊竟然有接近1000萬瀏覽量,可以說是非常的有人氣了,也足以說明91有著龐大的使用者量。所以每次門事件在此發酵起來也就不奇怪了。
作者上傳數目排行榜Top20:
上傳數目最多的作者足足上傳了558個視訊,上傳數目是第二的二倍還要多,可以說是非常勤快了。可以看到上傳視訊數量超過100的作者有18位,應該說大部分都是靠網站打廣告盈利的。他們多是會通過賣片的方式掙錢,注意到還會在介紹部分給各種“藥”打廣告,以及各種奇奇怪怪的微信。順手也做了個作者id的詞雲,上傳數目越多,字型越大。相信你們就知道應該關注誰了吧。
收藏數排行榜Top20:
收藏數這個應該是最能說明一個視訊精彩程度的,畢竟收藏了大概都是看了還想看???可以看到視訊收藏量最高的達到了40000,留言數也達到了1048。視訊留言數目排行榜(Top20)
雖然很多留言內容都是求約,但是更多的還是謝謝樓主,江湖傳言,此網站氛圍是世上最和諧的網站氛圍之一。一般來說,視訊精彩才會有更多的留言,因此我認為留言數也可以在某種程度上代表單個視訊精彩程度。可以看到留言數目最高的達到了3431,至於為何呢,只有看了視訊才能明白吧(逃)。
通過視訊時長,上傳時間以及各個資料的綜合分析還可以挖掘更多人民群眾對視訊的喜好資訊,今天先寫到這,後面發現了有意思的事情再繼續寫吧。爬蟲原始碼已上傳GitHub。千萬別問我要網站,我啥都不知道。
如果你喜歡我的文章,歡迎在以下平臺關注我~
Github:Rickon
知乎:Rickon
掘金:Rickon