爬取簡書26萬+使用者資訊:資料視覺化

古柳_Deserts_X發表於2017-09-23

一、前言

簡書上有哪些優質使用者?有多少大V粉絲數上萬,獲贊數上萬?小透明的自己能排到多少位?大V之間相互關注情況如何?簽約作者有多少人......

我想要了解這些問題,於是便有了本文。

二、爬蟲思路

《簡書=雞湯?爬取今日看點資料:1916篇簡書熱門文章視覺化》專案裡獲取的,貢獻了1916篇熱門文章的共計799名使用者的ID,作為種子ID,爬取各自關注列表裡的使用者資訊,再爬取關注者的關注者,如此幾層下去,便能獲取到幾十萬乃至上百萬條使用者資訊及彼此的關注情況。

爬取簡書26萬+使用者資訊:資料視覺化

由於簡書官方對資料有所保護和限制,僅能獲取單個使用者的900名關注者(粉絲亦然)。對於關注數小於900的自然能全部獲取;而大於900的就只有不完整的資料。

在通過2-3層資料爬取後,共獲得261277條使用者資訊,具體資料有:使用者名稱、主頁url、是否為簽約作者、粉絲數、獲贊數、關注數、文章數、總字數等等

爬取簡書26萬+使用者資訊:資料視覺化

三、資料視覺化

1、獲取的ID分佈情況

爬取799個種子ID(記為第0層,圖中由於數量級偏小,所以看不到出來柱形圖的圖案)各自的關注者,得到第1層47601條總ID資料(含重複ID),新增19526個淨ID;再根據第1層新增的淨ID,爬取其關注者,得到第2層1239366(約124w+)條總ID資料,新增189921個淨ID;再根據第2層新增的淨ID,爬取了部分ID的關注者,得到第3層391762條總ID資料,新增53677個淨ID

爬取簡書26萬+使用者資訊:資料視覺化

由於時間限制,沒有再繼續爬取下去,僅獲取了上述共261277條資料。由上圖可知,雖然一層層的爬取關注者,總ID數在第2層便突破了百萬級別,但新增的使用者ID增長並沒有那麼快,這說明被關注的使用者重複出現,他/她們獲得了廣泛的關注,因而可以視為較優質的使用者。

2、26w+簡書使用者粉絲情況

2.1 金字塔圖

有了26萬多條資料後,先來看看這些使用者各自都有多少粉絲,藉此來看看每一個人大概的排名是多少。

爬取簡書26萬+使用者資訊:資料視覺化

繪製成金字塔圖後可知,這26w+使用者裡:粉絲數大於10w+的有5人,依次為:@劉淼、@簡黛玉、@彭小六、@簡書播客、@江昭和,均是萬中挑一的人物;其他各梯度人數看圖即可,不再贅述。值得一提的是粉絲數10-100區間的人數佔比最大,為40.38%,而非0粉或1粉的使用者,這進一步說明了本次本次爬取的資料較為優質。與《爬取張佳瑋138w+知乎關注者:資料視覺化》一文中張佳瑋138w+知乎關注者中0粉佔比29.18%,1-10粉佔比55.49%,兩者相加使用者數已超過116w+,兩相對比,更能說明上述問題:

爬取簡書26萬+使用者資訊:資料視覺化

另外這26w+使用者裡0粉的有784人,論理本次爬取時能被爬取到的都起碼有一個粉絲,要不然不符合上述爬取的思路,但這裡卻發現不僅有0粉的,甚至有十來個使用者粉絲數為負數,不知道是不是簡書的BUG,去他們的主頁檢視,發現確實顯示的是負數,但是又明明有粉絲???

爬取簡書26萬+使用者資訊:資料視覺化

2.2 瀑布圖

知道了各個梯度(區間)使用者的數量和佔比,自然也就能知道每個人的大致排名。以我自身為例,粉絲數480人,排名4140,為前1.6%。還有很大的努力空間。再將所有使用者粉絲分佈情況繪製成瀑布圖,更能給所有奮筆疾書、努力寫作和輸出的人不斷漲粉後躍遷、上升的直觀感覺。

爬取簡書26萬+使用者資訊:資料視覺化

3、TOP 10系列

接下來再看看各種TOP 10的榜單:

3.1 粉絲數前十

全部使用者平均粉絲數為79人。全靠下面的大V帶飛。

1、劉淼:178262;2、簡黛玉:177047;

3、彭小六:139994;4、簡書播客:138836;

5、江昭和:133940;6、簡叔:89629;

7、韓大爺的雜貨鋪:88845;8、Sir電影:88840;

9、飽醉豚:86540;10、我帶爸爸看世界:77153;

3.2 獲贊數前十

全部使用者平均獲贊數為102個。大V天天見。

1、彭小六:222734;2、韓大爺的雜貨鋪:131250;

3、簡黛玉:124723;4、Sir電影:83485;

5、衷曲無聞:81205;6、懷左同學:80567;

7、剽悍一隻貓:79558;8、安梳顏:74808;

9、顧一宸:69015;10、陶瓷兔子:66527;

3.3 關注數前十

活捉十隻關注狂魔!全部使用者平均關注數為25人。拖後腿系列

1、臨川人:12878;2、桐子樹下:10624;

3、阿立斯本:7807;4、陳三白:6651;

5、WEFG_jakerfenG:174;6、欣悅生化:6168;

7、Athena79:5434;8、曾培然:5107;

9、有領uullnn:5086;10、MasterKang:5035;

3.4 文章數前十

所有使用者平均文章數為14篇。剛好達標。

1、絕塵:2150;2、幸運的貝殼:1834;

3、孤鳥差魚:1731;4、淡定之龍的傳人:1587;

5、Sir電影:1582;6、郭相麟:1455;

7、鴨梨山大哎:1364;8、炫彬:1360;

9、葡萄喃喃囈語:1354;10、軍旗獵獵:1330;

3.5 總字數前十

所有使用者平均總字數為16750。emmmmmm.

1、愛可可_愛生活:5953371;2、絕塵:4357012;

3、Sir電影:3948118;4、王邑塵:3566126;

5、Sting:3412810;6、詩之源:3337821;

7、優雅愛敵:2716884;8、柳志儒:2512482;

9、掘金官方:2483024;10、軍旗獵獵:2429342;

3.6 獲贊數/文章數前十

1、一棵花白:7517.5;2、冰冷鑽戒:4650;

3、Gosmy:3917;4、該號已廢:3751;

5、二十初仲夏的樹:3616.85;6、米洛在波士頓:3483;

7、Gibson:2973;8、Mr楠先生:2540;

9、南調北征:2419;10、她好酷的:2391;

4、126名簽約作者

很多人都以成為簽約作者作為自己寫作努力的方向,那麼簡書到底有多少名簽約作者呢?在這26w+較優質使用者裡,共有126人的主頁上明確地掛有“簽約作者”的標籤。為什麼這麼說呢,是簽約作者就是,不是就不是,難道主頁上沒有標籤的使用者也可能是“簽約作者”不成?!

爬取簡書26萬+使用者資訊:資料視覺化

這個好像還真的有可能。具體有待探究。後續會繼續研究下“簽約作者”這個群體。目前已經另外爬取@簽約作者文章合集專題裡的3141篇文章,發現該專題裡簽約作者依舊小於150人,其中不少人目前主頁上並沒有顯示標籤。去掉和上面126名重複的使用者後也不到200人,因此推測簡書總共的簽約作者不到200人,雖然根據爬取的資料顯示,很多人的粉絲數、喜歡數、文章數等都已經符合申請要求了。

四、小結

1、後續會繼續研究下“簽約作者”這一群體;

2、學習下用D3.js怎麼繪製大V們相互關注的情況;

3、同樣的會用《爬取張佳瑋138w+知乎關注者:資料視覺化》中獲取的較優質的使用者ID作為種子ID,用本文相同的爬取思路,去獲取更多知乎大V的資料。

爬取簡書26萬+使用者資訊:資料視覺化


相關文章