簡書推薦作者風雲榜(爬取簡書app資料)

古柳_Deserts_X發表於2017-09-28

一、前言

自處女作《爬取張佳瑋138w+知乎關注者:資料視覺化》一文分佈後,來簡書快一個月了(20170831)。但一直不怎麼熟悉這個平臺,因此,這回爬取簡書app裡的推薦作者並進行簡單視覺化,以增進對簡書的瞭解。

二、爬取簡書app

爬取簡書app的過程此文不做過多展開。大致過程如下:

用fiddler軟體抓包手機上的簡書app資料。找到API,看到返回的JSON資料,格式齊整:

簡書推薦作者風雲榜(爬取簡書app資料)

把JSON資料複製到Chrome瀏覽器的JSON-handle外掛裡,方便檢視格式和後續爬蟲裡寫提取資訊:(很少看到有人提到這個外掛,也是蠻奇怪的)

簡書推薦作者風雲榜(爬取簡書app資料)

寫好爬蟲程式碼,爬取資料並存入CSV檔案裡,發現一共230名推薦作者。但由於部分資料亂碼,也是很奇怪,以前爬知乎和微博,也是找API從JSON裡提取資料,並不會有一部分出現亂碼。無可奈何,只能對應的補救下。由於資料裡不包含粉絲數等資訊,需要再根據每個推薦作者的ID,到各自主頁爬取資料,整合後格式如下

簡書推薦作者風雲榜(爬取簡書app資料)

三、資料視覺化

3.1 推薦作者

爬完資料後,開始檢驗成果,進行視覺化,先將230名推薦作者“丟到”詞雲裡,直觀地看看都有哪些人:

簡書推薦作者風雲榜(爬取簡書app資料)

但沒有以粉絲數為權重,所以看不出V大V小,於是再丟一遍:

簡書推薦作者風雲榜(爬取簡書app資料)

可以看出推薦作者裡粉絲數前十的大V有:簡黛玉、劉淼、彭小六、江昭和、簡書播客、簡叔、韓大爺的雜貨鋪、Sir電影、飽醉豚、冷眼觀史。此外發現“簡書”系的還有簡寶玉、簡書出版、簡書茶館BossYe、簡書活動精選、簡書牧心、簡書福利社社長簡東西、簡書大學堂.....

怎麼可以這樣,安插這麼多官方(大概都是官方的吧,未考證)的賬號,應該把更多位置給其他優秀作者嘛,比如有個非常有才華的作者,叫做@Deserts_X,他略施魔法就使Top 100的推薦作者們動了起來,並且順帶騙走了你8M的流量,這麼厲害,還不關注一發

簡書推薦作者風雲榜(爬取簡書app資料)

當然一直看這些作者的暱稱其實還是不知道誰是誰,子曾經曰過:“無圖無真相”,那麼把所有作者的頭像拼個圖來看看,發現人像比重非常大啊,看來想成為推薦作者,必須要把頭像換成帥氣的自己才行,不說了,要去換頭像了,不對,要去整容了,再見

簡書推薦作者風雲榜(爬取簡書app資料)

3.2 粉絲數之長尾效應

接著按照推薦作者各自的粉絲數降序排列,可見曲線情況非常類似著名的“長尾效應”。當然右側尾部並不是無限長的,也不算完全符合。

簡書推薦作者風雲榜(爬取簡書app資料)

上圖可知,所有粉絲共計3975524人次,如果選取粉絲數排名前30的作者,可知其粉絲數已經接近總粉絲數的一半,馬太效應明顯(是這麼用的嘛,有點怕誤人子弟)。

簡書推薦作者風雲榜(爬取簡書app資料)

3.3 貢獻情況

看完了上面的圖,我們不禁發問,這些作者憑什麼成為大V,成為推薦作者的呢。因此繼續看看他們釋出的文章數和寫作的總字數情況:

簡書推薦作者風雲榜(爬取簡書app資料)

文章數直接幾百上千,總字數更是百萬級別。百萬級別是個什麼概念的,谷歌了下《論語》約1.6w字,《老子》約5k+字數。除一下,推薦作者高產似那啥,創作了大概好多好多部《論語》《老子》的內容,由此可見,名副其實,當之無愧的推薦作者呀。回頭看了下我的總字數,差不多也有一本《論語》加一本《老子》的字數了,23333。

繼續給上圖加上粉絲數(圓圈顏色)和獲贊數(圓圈大小)

簡書推薦作者風雲榜(爬取簡書app資料)

可見雖然@Sir電影以一己之力將圖表大小擴大到了Plus款,但敵不過@彭小六才是當之無愧的“吸贊狂魔”啊,394篇文章,621858字數,219218贊數。就問你怕不怕。

按贊數降序可知,其他作者的排序如下,看來要好好研究下,怎麼寫出“人見人愛,花見花開”的文章呢!不說了整容的路上好好看他們的文章。

簡書推薦作者風雲榜(爬取簡書app資料)

3.4 簽約作者

再來看看推薦作者裡簽約作者的比重。在230名推薦作者裡,共有75人身兼簽約作者之頭銜,另外155人暫時無此頭銜。再把這75人丟到詞雲裡(重要的作者丟三遍):

簡書推薦作者風雲榜(爬取簡書app資料)

愣著幹嘛,頂禮膜拜,高呼“苟......”,有點暴力......

四、小結

沒有小結,只有寫文後的高興,和不知道有沒有人看的迷惑。評論裡見。


相關文章