如有侵權請告知刪除
最近學習 Python ,第一個練手的專案就是簡書(原始碼後面會放,先容我逼逼叨)
本次爬取的思路是想通過獲取簡書平臺上所有分類、作者及文章資料,分析如下幾點問題
- 哪些人在用簡書
- 簡書上什麼型別的文章比重高
- 是否可以靠簡書創作維生
- 簡書最火的分類、作者和文章
爬取完資料之後,文章資料 476568 條,作者資訊 115445 條,專題資訊 865 條 先說明一下,目前獲取的資料並非簡書平臺完整資料。簡書對專題下文章的獲取有限制,翻頁只能獲取前200頁的資料,而每頁返回10條資料,那麼每個專題下只能獲取到最多 2000 條文章資訊。也就是說最多可以爬取 2000 * 865 = 1730000 條文章資料。由於同一篇文章可以被不同的專題收錄,導致中間會出現大量重複資料,可以看出。實際獲取的文章資料只有 476568 條,與理論值還是相差甚遠
先看一下列出的統計資料
專題下文章數量平均值為 6682.452
文章數量最多的專題排行前十
專題名稱 | 文章數量 |
---|---|
首頁投稿(暫停使用,暫停投稿) | 374466 |
每天寫1000字 | 334612 |
詩 | 264035 |
散文隨筆 | 237942 |
簡詩 | 204124 |
青春 | 194478 |
故事 | 178920 |
讀書 | 172451 |
今日看點 | 158923 |
連載小說 | 142922 |
作者排名前十
作者 | 文字數量 | 粉絲數量 | 喜歡數量 |
---|---|---|---|
劉淼 | 423008 | 310947 | 23012 |
阿里云云棲社群 | 3164537 | 291201 | 24499 |
Sir電影 | 5633989 | 286116 | 113564 |
簡書版權中心 | 386397 | 277277 | 30321 |
電影聚焦 | 1673215 | 274832 | 5669 |
簡書播客 | 239537 | 257569 | 6813 |
太湖浪子 | 547953 | 218205 | 42533 |
簡書大學堂 | 472011 | 212979 | 12226 |
江昭和 | 942434 | 203082 | 35054 |
簡寶玉 | 80437 | 190409 | 14397 |
文章閱讀排名前十
文章 | 閱讀數量 |
---|---|
讓我來一次性告訴你,空氣炸鍋究竟好不好用 | 1213082 |
越是難熬的日子,越要讓自己有事可做 | 945236 |
Markdown——入門指南 | 918540 |
我可以不上班,你不行! | 887105 |
獻給寫作者的 Markdown 新手指南 | 806548 |
微信平臺全面封殺UBER的24小時裡,優步做了什麼 | 771078 |
中國最美現代詩,你知道這十首就夠了 | 607625 |
提高情商,我推薦這5本書 | 498615 |
你在星巴克喝馥芮白了沒? | 444697 |
iOS和Android的app介面設計規範 | 437309 |
文章打賞排名前十
文章 | 打賞數量 |
---|---|
懷念我的妻子顧琪 | 1553 |
報名截止,活動結束 - 零基礎入門簡筆畫 | 507 |
王佩寫作私密群招募(第二期在招)|來聊聊“好中文的樣子” | 347 |
招募截止丨一日一繪之21天手繪挑戰營 | 333 |
【報名截止,招募結束】零基礎入門簡筆畫之小插畫——21天訓練營第三期 | 305 |
因為並不聰明,所以努力把這些習慣堅持了7年 | 270 |
微信平臺全面封殺UBER的24小時裡,優步做了什麼 | 264 |
沒有婚姻,我拿什麼保護你?我的愛人 | 226 |
對啊,就是嫌你窮才分手的啊 | 188 |
別學東學西了,先建立自己的知識體系吧 | 182 |
文章付費排名前十
文章 | 價格 | 付費數量 |
---|---|---|
看了那麼多寫作課,你為什麼還沒寫作掙到錢(純乾貨) | ¥5.21 | 1056 |
(經驗分享)我是如何靠寫作賺錢年入十幾萬的? | ¥4.99 | 1015 |
分享乾貨版︱如何通過寫作開啟斜槓人生,賺取寫作的第一桶金? | ¥2.99 | 652 |
寫出爆文有套路,這七條經驗讓你成為簡書大V(乾貨) | ¥5.21 | 403 |
我是如何用49天從懶癌晚期成功逆襲,兼職收入十幾萬的? | ¥2.99 | 310 |
想賺點稿費,又不知道往哪裡投怎麼辦?來這裡告訴你! | ¥3.50 | 299 |
如何在簡書出版一本書(之一) | ¥3.99 | 215 |
短篇小說丨殺人犯 援交女與熱帶風暴 | ¥2.99 | 156 |
我也不是生來就是流浪狗 | ¥2.99 | 140 |
穿越言情繫列小說《心歸何處》|輪迴 | ¥2.99 | 114 |
哪些人在用簡書
根據詞雲圖可以大致瞭解到,簡書中的專題大部分與 IT 從業者相關
簡書上什麼型別的文章比重高
從詞雲中看,好像 IT 行業中,寫技術、運營和產品相關的文章佔比會比較大,但是請先明白,詞雲只是做了 基於專題標題 的詞頻統計,而專題的建立是面向使用者開放的,可想而知,有一幫 IT 從業者在使用簡書記錄,並想從中建立自己的流量池 別急,再看看文章閱讀、讚賞和付費的排行 這裡給出了前十的資料,3個排行中從標題來看,與 IT 行業好像沒太大關係
是否可以靠簡書創作維生
分析該問題需要參考讚賞和付費排行 讚賞只能看看最多的是幫助我們瞭解上面型別的文章是簡書使用者所喜愛的,這是方向,而具體有沒有乾貨,這個還需要看作者的實力了 而從付費排行中可以看出,付費數量最多的文章 看了那麼多寫作課,你為什麼還沒寫作掙到錢(純乾貨),看標題就知道,一片純乾貨,奪得付費排行第一,而售價 ¥5.21,可以算出一篇文章讓作者賺了 ¥5501.76,這裡暫不考慮平臺的抽成成或稅務情況,還是個可觀的數字。同時觀察了一下該作者,共釋出 3 篇收費文章,而綜合看下來,從第一篇收費文章到最後一篇收費文章,對應的時間是 2018.03.27~2018.05.10,其中 2018.03.27 釋出的便是這裡列出的乾貨文章,成了爆文。但是後面釋出的兩篇文章的收益截止目前分別為 ¥2198.62 和 ¥522.69,從第一篇爆文釋出至今 88 天,通過付費文章獲益 ¥8223.07。
當然,這個是個案分析,如果希望追求準確度,建議有興趣的朋友可以分析一下前10、50、100的收入排行資料,這樣會更準確,也更直觀
簡書最火的分類、作者和文章 分類、作者和文章排行前面已經給出了,請參考上面的表格
我並不是上面專業的資料分析師,對數字的敏感度也不高,分析的並不全面,有需要的朋友可以下載原始碼後自行爬取
原始碼地址:點選下載
目前爬蟲的效率非常低,跟爬取機制有非常大的關係 最近準備加入 redis 快取待分析的文章連結,然後單獨使用一條執行緒,用協程的形式進行文章資料分析 這樣的話效率應該會提高很多,請關注