爬完簡書50w+條資料之後

HONGQUAN發表於2018-06-23

Python 爬蟲

如有侵權請告知刪除

最近學習 Python ,第一個練手的專案就是簡書(原始碼後面會放,先容我逼逼叨)

本次爬取的思路是想通過獲取簡書平臺上所有分類、作者及文章資料,分析如下幾點問題

  • 哪些人在用簡書
  • 簡書上什麼型別的文章比重高
  • 是否可以靠簡書創作維生
  • 簡書最火的分類、作者和文章

爬取完資料之後,文章資料 476568 條,作者資訊 115445 條,專題資訊 865 條 先說明一下,目前獲取的資料並非簡書平臺完整資料。簡書對專題下文章的獲取有限制,翻頁只能獲取前200頁的資料,而每頁返回10條資料,那麼每個專題下只能獲取到最多 2000 條文章資訊。也就是說最多可以爬取 2000 * 865 = 1730000 條文章資料。由於同一篇文章可以被不同的專題收錄,導致中間會出現大量重複資料,可以看出。實際獲取的文章資料只有 476568 條,與理論值還是相差甚遠

先看一下列出的統計資料

根據專題資訊進行詞頻統計繪製的詞雲

專題下文章數量平均值為 6682.452

簡書專題下文章數量佔比

文章數量最多的專題排行前十

專題名稱 文章數量
首頁投稿(暫停使用,暫停投稿) 374466
每天寫1000字 334612
264035
散文隨筆 237942
簡詩 204124
青春 194478
故事 178920
讀書 172451
今日看點 158923
連載小說 142922

作者排名前十

作者 文字數量 粉絲數量 喜歡數量
劉淼 423008 310947 23012
阿里云云棲社群 3164537 291201 24499
Sir電影 5633989 286116 113564
簡書版權中心 386397 277277 30321
電影聚焦 1673215 274832 5669
簡書播客 239537 257569 6813
太湖浪子 547953 218205 42533
簡書大學堂 472011 212979 12226
江昭和 942434 203082 35054
簡寶玉 80437 190409 14397

文章閱讀排名前十

文章 閱讀數量
讓我來一次性告訴你,空氣炸鍋究竟好不好用 1213082
越是難熬的日子,越要讓自己有事可做 945236
Markdown——入門指南 918540
我可以不上班,你不行! 887105
獻給寫作者的 Markdown 新手指南 806548
微信平臺全面封殺UBER的24小時裡,優步做了什麼 771078
中國最美現代詩,你知道這十首就夠了 607625
提高情商,我推薦這5本書 498615
你在星巴克喝馥芮白了沒? 444697
iOS和Android的app介面設計規範 437309

文章打賞排名前十

文章 打賞數量
懷念我的妻子顧琪 1553
報名截止,活動結束 - 零基礎入門簡筆畫 507
王佩寫作私密群招募(第二期在招)|來聊聊“好中文的樣子” 347
招募截止丨一日一繪之21天手繪挑戰營 333
【報名截止,招募結束】零基礎入門簡筆畫之小插畫——21天訓練營第三期 305
因為並不聰明,所以努力把這些習慣堅持了7年 270
微信平臺全面封殺UBER的24小時裡,優步做了什麼 264
沒有婚姻,我拿什麼保護你?我的愛人 226
對啊,就是嫌你窮才分手的啊 188
別學東學西了,先建立自己的知識體系吧 182

文章付費排名前十

文章 價格 付費數量
看了那麼多寫作課,你為什麼還沒寫作掙到錢(純乾貨) ¥5.21 1056
(經驗分享)我是如何靠寫作賺錢年入十幾萬的? ¥4.99 1015
分享乾貨版︱如何通過寫作開啟斜槓人生,賺取寫作的第一桶金? ¥2.99 652
寫出爆文有套路,這七條經驗讓你成為簡書大V(乾貨) ¥5.21 403
我是如何用49天從懶癌晚期成功逆襲,兼職收入十幾萬的? ¥2.99 310
想賺點稿費,又不知道往哪裡投怎麼辦?來這裡告訴你! ¥3.50 299
如何在簡書出版一本書(之一) ¥3.99 215
短篇小說丨殺人犯 援交女與熱帶風暴 ¥2.99 156
我也不是生來就是流浪狗 ¥2.99 140
穿越言情繫列小說《心歸何處》|輪迴 ¥2.99 114

哪些人在用簡書

根據詞雲圖可以大致瞭解到,簡書中的專題大部分與 IT 從業者相關

簡書上什麼型別的文章比重高

從詞雲中看,好像 IT 行業中,寫技術、運營和產品相關的文章佔比會比較大,但是請先明白,詞雲只是做了 基於專題標題 的詞頻統計,而專題的建立是面向使用者開放的,可想而知,有一幫 IT 從業者在使用簡書記錄,並想從中建立自己的流量池 別急,再看看文章閱讀、讚賞和付費的排行 這裡給出了前十的資料,3個排行中從標題來看,與 IT 行業好像沒太大關係

是否可以靠簡書創作維生

分析該問題需要參考讚賞和付費排行 讚賞只能看看最多的是幫助我們瞭解上面型別的文章是簡書使用者所喜愛的,這是方向,而具體有沒有乾貨,這個還需要看作者的實力了 而從付費排行中可以看出,付費數量最多的文章 看了那麼多寫作課,你為什麼還沒寫作掙到錢(純乾貨),看標題就知道,一片純乾貨,奪得付費排行第一,而售價 ¥5.21,可以算出一篇文章讓作者賺了 ¥5501.76,這裡暫不考慮平臺的抽成成或稅務情況,還是個可觀的數字。同時觀察了一下該作者,共釋出 3 篇收費文章,而綜合看下來,從第一篇收費文章到最後一篇收費文章,對應的時間是 2018.03.27~2018.05.10,其中 2018.03.27 釋出的便是這裡列出的乾貨文章,成了爆文。但是後面釋出的兩篇文章的收益截止目前分別為 ¥2198.62 和 ¥522.69,從第一篇爆文釋出至今 88 天,通過付費文章獲益 ¥8223.07。

當然,這個是個案分析,如果希望追求準確度,建議有興趣的朋友可以分析一下前10、50、100的收入排行資料,這樣會更準確,也更直觀

簡書最火的分類、作者和文章 分類、作者和文章排行前面已經給出了,請參考上面的表格

我並不是上面專業的資料分析師,對數字的敏感度也不高,分析的並不全面,有需要的朋友可以下載原始碼後自行爬取

原始碼地址:點選下載

目前爬蟲的效率非常低,跟爬取機制有非常大的關係 最近準備加入 redis 快取待分析的文章連結,然後單獨使用一條執行緒,用協程的形式進行文章資料分析 這樣的話效率應該會提高很多,請關注

相關文章