三分鐘教你挖掘出9個億的5位數QQ號,QQ大資料的神秘技能

佚名發表於2016-01-15

幾天前,一個朋友來聊天,表示很羨慕我的6位QQ號,我說有啥好羨慕的,還有那麼多5位號呢! 他感嘆道:“一個5位號現在值好幾萬,早知道當初註冊個百八十個的話,現在不就發財了… ”!

自我介紹下。傳說中的“網路抓取鐵手追命”,就是本人了。 主要擅長各種網際網路資料抓取挖掘,通曉各種資料來源採集規則,網際網路江湖人士也,現和你分享一下如何一夜間挖價值9個億的5位數QQ號使用者!

  9萬條5位數QQ使用者的詳細資料

QQ號,暱稱,空間名稱,性別,年齡,生日,所在國家,省份,城市,感情狀況,職業(其中QQ空間公開的一共有23283條,佔全部9萬個號的25.87%)

你還不知道的騰訊使用者真相:

在價值9個億的5位數QQ號使用者中出現了神秘人物!

QQ的“金粉世家”主要聚集在哪些地方?

5位數QQ使用者如何影響到國家的GDP?

75後85前使用者,至今未婚的QQ女們要腫麼辦?

IT腐男宅女,商場精英,工程師,退休老大爺最愛混跡QQ圈!

到目前為止,沒人知道“天若晴”到底是哪位大佬!

天若晴

  QQ的“金粉世家”主要聚集在哪些地方?

大資料分析常用的熱力圖如下,顏色越深的是代表人數越多,可以看出:人群最集中的是長三角,珠三角和北京。遼寧,湖南和四川瞧著也是略有小成。

爬了3000萬QQ使用者資料,挖出了花千骨趙麗穎的QQ號

大資料真可怕!技術帝教利用整個QQ網路,查出一個QQ號碼的所有相關資訊

QQ金粉世家

再來看看省市的TOP10,前4沒有黑馬,主要就是國內熱點聚集地區;稍感意外的是城市的第5名是我大東北的哈爾濱,而黑龍江也排在省的第7名。

省市TOP

  5位數QQ使用者如何影響到國家的GDP?

我為什麼說稍感意外呢,因為前面也說了5位QQ號這個東西某種意義上也算一種財富象徵,不管是虛擬財富還是現實財富;而我大黑龍江雖然白山黑水,地大物博,畢竟GDP在全國還是排在後面的,現實財富會差一些,用一張圖來對比下:

5位數QQ使用者對國家GDP影響

一對比就可以看出來,黑龍江在右圖(QQ)的顏色明顯深過左邊(GDP)。我們來算筆賬:黑龍江2014年GDP是1.5萬個億,公開的5位QQ號有493個;而山東省GDP將近6萬億,5位QQ號卻只有266個?可見老山東起碼在網際網路+的發展上,落後於黑龍江一籌。

用鄧通發明的指標GQ率(GDP除以5位QQ號人數)來計算,老山東高達223.4,而後幾名內蒙古,山西,河北也都是重度霧霾的難兄難弟,網際網路+的創新不夠,急需經濟轉型啊。

至於東北為何5位QQ這麼多(摸頭)大概因為俺們東北人喜歡嘮嗑吧?這個問題還是等磚家作答吧。

  75後85前使用者,至今未婚的QQ女們要腫麼辦?

從結果可以看到,男女分佈為60.2和23.2%,其中女生透露自己年齡的不多,只佔15%左右;這也是人之常情:)。36大資料表示, 從年齡結構看,75後85前佔大部分,確實,QQ大概是98,99年釋出的(那時還叫OICQ呢),那時候90後還都在吃奶玩凱蒂貓呢。女生中70後佔比最高,並且未婚比已婚的比例高。

70-85年QQ使用者

從情感方面的分佈圖,未婚比已婚的比例高。這個話題,我表示比較有興趣:70後的土豪Q們大部分時間都在忙事業了,Q男的不著急生娃,Q女不著急婚嫁。大齡女可以叫“剩女”,大齡男不能喊“剩男”,那得叫成熟的“黃金單身”!這讓至今未婚的Q女們腫麼辦? 可以考慮學學小龍女,也許能遇上一段世紀佳緣,百合一生,或者乾脆將單身進行到底,做堅強的“黃金剩鬥士”!!!

70-85年QQ使用者情感狀態

  原來IT腐男宅女,商界精英,工程師,退休老大爺最愛混跡QQ圈!

使用者職業方面,QQ好像可以隨便,因此職業也是五花八門,挑了前十幾個最多的做一副雲圖。另外標識退休的一部分估計早已財務自由。計算機及網際網路行業的居多,很好理解。早期QQ號碼隨便申請,沒人知道他的價值,同時安全性也非常差,主要的上網渠道–網咖中有各種後門及盜號木馬神馬的。所以很大一部分靚號都被各類計算機大神“收集”起來。所以最終形成如下現在的分類圖:

分佈圖

  後記:擁抱網際網路資料

很有感悟“ 網際網路上沒有垃圾資訊,只有放錯位置的資源”。關於WEB資料探勘方面其實是很值得研究的。以上的資料分享案例僅從5個維度做了對應分析,其實根據資料採集的維度,是可以做更廣泛分析的。如從騰訊開放的QQ群、QQ會員、QQ拼音及QQ秀等多個公開資料來源渠道挖掘收集到非常有價值的資料。就像百度中有很多你需要的開放資料,關鍵看你怎麼去挖掘收集。

多年前,資料採集工作是需要程式設計師自己寫各種爬蟲程式,同時需要搞定多執行緒、資料庫、高匿IP等多個技術門檻才能比較隨心所欲地做到,整個過程是非常繁瑣的。現在好多了,隨著網際網路雲端儲存計算、大資料相關雲技術的成熟,使用支援雲採集的SaaS工具化交易平臺,一方面自己可以使用工具輕而易舉收集到想要你的資料,另一方面也可以直接發個需求讓其他開發者或供應方定製給你。自己就可以聚焦在擅長的資料分析方面了。

言歸正傳。以上資料來源由託管在發源地資料交易平臺,有興趣的朋友可以去這個連結:http://www.finndy.com/midycp.php?action=robots&op=viewrobot&robotid=1123看看(需要登入),2萬多原始資料都在裡面。

源資料

相關文章