上萬條資料撕開微博熱搜的真相!
作者:徐麟,某網際網路公司資料分析獅,個人公眾號資料森麟(id:shujusenlin)
吃瓜前言
關於新浪微博,向來都是各路吃瓜群眾聚集之地,大家在微博中可以盡情吃瓜,各種型別的瓜應有盡有,只有你想不到的,沒有你吃不到的。微博熱搜榜更是各路明星的“必爭之地”,能夠上熱搜也是代表了其知名度,“包月熱搜套餐”,“買熱搜”是否存在迄今也是一個未解之謎
除了吃瓜群眾,新浪微博也聚集著一群被整個網際網路圈所同情的一群苦逼程式設計師,每當有明星放出新聞,特別是結婚、離婚、分手、戀愛這類婚戀題材,新浪微博程式設計師都會嚴陣以待,此時的伺服器會因為吃瓜群眾的大量湧入而變得脆弱起來,隨時有崩潰的風險,下圖就是一張此前廣為流傳的程式設計師在自己婚禮處理伺服器崩潰的經典圖片:
我們此次透過爬取2019年2W+條熱搜資料,包括內容以及搜尋指數,為大家揭開微博熱搜2019的諸多秘密,一起利用資料“硬核吃瓜”,包括:2019微博熱搜最大的瓜,微博程式設計師集體加班的日子,微博熱搜的常客,熱搜裡的2019網際網路……
瓜源獲取
我們此次並沒有直接去爬取微博的原始資料,而是從一個專門記錄微博熱搜歷史資料的網站獲取,網站介面如下:
透過網站的資料介面,我們獲取到了今天1月1日至今的2W多條資料,爬取程式碼如下:
resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date:
print(i)
url= '{}'.format(str(i))
html = requests.get(url=url, cookies=cookie, headers=header).content
data = json.loads(html.decode('utf-8'))
for j in range(100):
resou = resou.append({'date':i,'title':data[j]['keyword'],
'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)
最終獲取到的吃瓜資料如下:
硬核吃瓜
有了前面的瓜源獲取過程,我們獲取到了2W+吃瓜資料,下面就可以開始利用這些資料愉快地開始我們的吃瓜之旅
第一瓜:2019微博熱搜最火事件
說到吃瓜,大家首先關注的一定是那些最大的瓜,要吃就吃最大的瓜也是廣大吃瓜群眾所遵從的基本原則,我們透過對比熱搜資料的搜尋指數,選取出了15個最大的瓜,資料如下:
看來最大的瓜都是婚戀題材,排名前四的瓜涵蓋了結婚、離婚、分手這些廣大吃瓜群眾所最為關心的內容,並且有了明星加成,結出這些巨型瓜也就不足為奇,大家可以看到排名第14的熱搜“今天到底是什麼日子”可能會好奇,為何這種標題也會有那麼高的搜尋量,想要知道這個問題的答案,就請繼續去品嚐下面的瓜
第二瓜:2019最讓微博程式設計師抓狂的日子
剛才的瓜中,我們留下了一個懸念,為何“今天到底是什麼日子”這種看似沒有任何營養的內容,都會有那麼高的搜尋指數。為了回答這個問題,我們統計了2019年每天的TOP100熱搜話題平均指數,並繪製了日曆熱度圖:
可以看到6月27日的指數遠高於其他天數,而且基本上是其他時間的兩到三倍,這一天就是“今天到底是什麼日子”這個話題的誕生之日,並且這一天微博伺服器毫無疑問地“應聲倒地”,我想這一定是讓微博程式設計師懷疑人生的日子
下面我們就來具體看看,這一天到底發生了些什麼:
看到這份榜單,我們彷彿看到了程式設計師們6月27日的絕望。宋慧喬&宋仲基離婚這個巨型瓜的出現,程式設計師們還可以用自己的信念支撐著伺服器不要崩潰,然而正當程式設計師們以為穩操勝券的時候,范冰冰&李晨分手這個更加巨大的瓜出現了,我想程式設計師們內心一定是這樣的:
因為有了這兩個巨型瓜的存在,使得“張若昀&唐藝昕”,“馬思純當司儀”,“杜江否認出軌”這種平時能夠輕鬆hold住的瓜也產生了威力加成,進一步壓垮程式設計師,就連平時低調的B站也請來了五月天,真可謂是“瓜團錦簇”的一天。我想“今天到底是什麼日子”這條熱搜的創造者很有可能就是新浪微博的程式設計師
第三瓜:2019最勤勞的瓜生產商
前面提到了6月27日是微博程式設計師最為抓狂的日子,那麼又有那些生產商為廣大吃瓜群眾源源不斷地創造吃瓜素材呢,我們也統計了相關資料,想必這些生產商也是廣大程式設計師們最怕的人:
榜單中易烊千璽以80次的出現次數榮登榜首,也就是說平均每兩天他就會為廣大群眾生產一次“吃瓜素材”,也是非常地勤勞,想到作者一個月一篇原創的節奏,默默留下了悔恨的淚水。周董也在榜單中以78次的資料位居次席,畢竟周董是一代人的青春記憶,大家也都在時刻關注著周董。
或許大家會認為榜單都被娛樂圈所霸佔,沒啥新意之時,東哥站了出來,成為榮登本榜單的唯一網際網路人士,不過個人還是希望今後不要在榜單中再看到東哥的身影,畢竟老話說得好“no news is good news”。
第四瓜:那些專屬熱搜的詞語
如同“****,是怎樣的體驗”這樣的知乎體,“震驚!***”這樣的uc體,熱搜也有一些比較常出現,能代表熱搜獨特氣質的詞語,我們從中選取了一些比較有代表的詞語並統計其出現次數
華為在榜單中出現了86次,也印證了大家在上半年對於華為的關注度,未來也希望有更多類似於“華為**系統上線”這樣振奮人心的訊息出現在熱搜中。
同時在小編看來否認,道歉,心疼這三個詞是非常有特色的熱搜詞語,畢竟很難在其他的地方會時不時就看“心疼**”這種標題,我們針對於這三個詞語製作了相應的詞雲:
否認版
208次否認相關話題出現在了熱搜榜單,足以說明在這個資訊爆炸的時代有太多的事情難以去分辨真假,其中一些內容確實是虛造的,當事人也及時站出來進行否認。不過對於其他的一些事情,想必是“真亦假來假亦真”,需要大家自己去判斷
道歉版
強烈建議廣大讀者收藏上圖,特別是在被老闆罵或者因為生產BUG而被同事懟的時候拿出來看一下,調節一下自己的心情。想到連菲利普親王都要道歉,及時認個慫好像也沒啥,畢竟你的工資卡里也沒剩幾個錢
心疼版
最後這個可以說是極具微博特色了,廣大吃瓜群眾可謂憂國憂民,心疼的物件從韓庚到吳謹言,張雨綺,就連梅西都心疼名單中,這體現出了吃瓜群眾樂於助人的正確價值觀。
不過小編表示還是要先心疼一下自己,上面那些被心疼的人收入都是小編的上百倍甚至更多,還是先心疼一下自己的花唄比較現實
除此之外,微博熱搜也十分熱衷於關心明星是不是哭了以及是不是胖了這種話題,可謂“先天下之憂而憂,後天下之樂而樂”,滿滿的責任感
第五瓜:明星婚戀話題到底有多火
此前提到,排名靠前的內容大多都是明星婚戀題材的內容,比如**和**離婚,**和**結婚又離婚,或者**和**結婚又離婚又復婚……,我們就來看一下這些話題出現的次數
不出所料,廣大吃瓜群眾對於這類題材都有著非常高的好奇心,為別人的婚戀情況操碎了心,可以說是很努力了,想必未來的**婚戀上市公司的老總一定會在吃瓜群眾中誕生,我們也來具體看看那些相關的話題。
結婚 VS 離婚
最後我們以一句話來結束這部分的吃瓜內容:“貴圈真亂”
第六瓜:2019熱搜中的網際網路專屬瓜
前面說的那些大多都是娛樂圈的內容,作為網際網路從業(banzhuan)人員,對於網際網路的專屬瓜品也有著強烈興趣,我們從中選取了網際網路圈為2019熱搜所生產的瓜品:
出人意料的是TOP2居然都和B站有關,經過查證,這兩條都發生在最讓微博程式設計師抓狂,瓜團錦簇的6月27日(比較奇怪的是B站十週年應該是6月26日,但上榜時間確是27日),平時八成熟的瓜立刻熟透。相信網際網路人看到這份榜單,也會回憶起很多上半年發生的事情,2019上半年的網際網路也是熱鬧非凡。
吃瓜結語
今天的吃瓜之旅就到這裡結束了,看來吃瓜也是門學問,微博熱搜資料也是一個大的分析寶庫,裡面還有很多可以繼續分析的點,等待大家去挖掘
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2651647/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 分析了2020年3萬多條的微博熱搜,我看到了什麼
- Python 超簡單爬取微博熱搜榜資料Python
- Python 教你動態展示微博熱搜排名變化Python
- 一個比微博熱搜更適合吃瓜的平臺——即時熱榜
- 六成白領假裝運動 體檢大資料撕開真相大資料
- 我們分析了28萬條熱搜,發現了真正的頂流
- GitHub 上這款新浪微博爬蟲專案,讓你輕鬆掌握微博資料!Github爬蟲
- 2021上半年微博熱搜榜趨勢報告(附下載)
- “熱搜”中的分散式資料庫分散式資料庫
- 純前端實現詞雲展示+附微博熱搜詞雲Demo程式碼前端
- Android Kotlin retrofit2 網路請求學習獲取微博熱搜列表AndroidKotlin
- 網易雲音樂熱評的規律,44萬條資料告訴你
- 淘寶二面:MySQL裡有2000萬條資料,但是Redis中只存20萬的資料,如何保證redis中的資料都是熱點資料?MySqlRedis
- 一個批次爬取微博資料的神器
- js基本搜尋演算法實現與170萬條資料下的效能測試JS演算法
- 手撕Vuex-模組化共享資料上Vue
- php不使用Office包實現上萬條資料匯出表格PHP
- Scrapy爬取新浪微博移動版使用者首頁第一條微博
- 微信翻譯出Bug上熱搜,程式設計師又背鍋?程式設計師
- android studio 搜尋只顯示100條資料Android
- Oracle查詢前100萬條資料Oracle
- PHP基於laravel框架獲取微博資料之一 模擬新浪微博登入PHPLaravel框架
- 搜Wi-Fi熱點 Android 應用資料洩露:涉200多萬WiFi密碼AndroidWiFi密碼
- 微博-指定話題當日資料爬取
- 新浪微博&艾漫資料:2019明星白皮書
- Adobe資料庫暴露750萬條使用者資料資料庫
- 被資料掩蓋的遊戲出海真相遊戲
- 揭開資料背後的真相:WOT2016大資料技術峰會來襲大資料
- 從一條微博揭秘"專黑大V名人"的定向攻擊
- 微博動漫&微熱點:2019上半年亞洲動漫榜
- 新浪微博:2023年下半年蘋果上榜270次熱搜 位列手機行業第一蘋果行業
- 微博財報:2018年Q1微博淨利潤9910萬美元 同比增長111%
- 因爬取微博資料賠2000萬元,首例涉資料抓取交易不正當競爭糾紛案塵埃落定
- 谷歌上線資料搜尋引擎 Dataset Search谷歌
- PHP 基於laravel框架獲取微博資料之二 使用者資料的使用PHPLaravel框架
- 新浪微博資料中心:2019微博電影白皮書(附下載)
- 震驚!2500萬條個人資訊網上掛賣
- [Python手撕]不同的二叉搜尋樹Python