上萬條資料撕開微博熱搜的真相!

xulinlucas發表於2022-12-08

上萬條資料撕開微博熱搜的真相!

作者:徐麟,某網際網路公司資料分析獅,個人公眾號資料森麟(id:shujusenlin)

吃瓜前言

關於新浪微博,向來都是各路吃瓜群眾聚集之地,大家在微博中可以盡情吃瓜,各種型別的瓜應有盡有,只有你想不到的,沒有你吃不到的。微博熱搜榜更是各路明星的“必爭之地”,能夠上熱搜也是代表了其知名度,“包月熱搜套餐”,“買熱搜”是否存在迄今也是一個未解之謎

除了吃瓜群眾,新浪微博也聚集著一群被整個網際網路圈所同情的一群苦逼程式設計師,每當有明星放出新聞,特別是結婚、離婚、分手、戀愛這類婚戀題材,新浪微博程式設計師都會嚴陣以待,此時的伺服器會因為吃瓜群眾的大量湧入而變得脆弱起來,隨時有崩潰的風險,下圖就是一張此前廣為流傳的程式設計師在自己婚禮處理伺服器崩潰的經典圖片:

上萬條資料撕開微博熱搜的真相!

我們此次透過爬取2019年2W+條熱搜資料,包括內容以及搜尋指數,為大家揭開微博熱搜2019的諸多秘密,一起利用資料“硬核吃瓜”,包括:2019微博熱搜最大的瓜,微博程式設計師集體加班的日子,微博熱搜的常客,熱搜裡的2019網際網路……

瓜源獲取

我們此次並沒有直接去爬取微博的原始資料,而是從一個專門記錄微博熱搜歷史資料的網站獲取,網站介面如下:

上萬條資料撕開微博熱搜的真相!

透過網站的資料介面,我們獲取到了今天1月1日至今的2W多條資料,爬取程式碼如下:

resou = pd.DataFrame(columns=['date','title','searchCount','rank'])
resou_date = getBetweenDay('2019/01/01','2019/07/12')
for i in resou_date:
    print(i)
    url= '{}'.format(str(i))
    html = requests.get(url=url, cookies=cookie, headers=header).content
    data = json.loads(html.decode('utf-8'))
    for j in range(100):
        resou = resou.append({'date':i,'title':data[j]['keyword'],
        'searchCount':data[j]['searchCount'],'rank':j+1},ignore_index=True)

最終獲取到的吃瓜資料如下:

上萬條資料撕開微博熱搜的真相!

硬核吃瓜

有了前面的瓜源獲取過程,我們獲取到了2W+吃瓜資料,下面就可以開始利用這些資料愉快地開始我們的吃瓜之旅


第一瓜:2019微博熱搜最火事件


說到吃瓜,大家首先關注的一定是那些最大的瓜,要吃就吃最大的瓜也是廣大吃瓜群眾所遵從的基本原則,我們透過對比熱搜資料的搜尋指數,選取出了15個最大的瓜,資料如下:


上萬條資料撕開微博熱搜的真相!

看來最大的瓜都是婚戀題材,排名前四的瓜涵蓋了結婚、離婚、分手這些廣大吃瓜群眾所最為關心的內容,並且有了明星加成,結出這些巨型瓜也就不足為奇,大家可以看到排名第14的熱搜“今天到底是什麼日子”可能會好奇,為何這種標題也會有那麼高的搜尋量,想要知道這個問題的答案,就請繼續去品嚐下面的瓜


第二瓜:2019最讓微博程式設計師抓狂的日子


剛才的瓜中,我們留下了一個懸念,為何“今天到底是什麼日子”這種看似沒有任何營養的內容,都會有那麼高的搜尋指數。為了回答這個問題,我們統計了2019年每天的TOP100熱搜話題平均指數,並繪製了日曆熱度圖:

上萬條資料撕開微博熱搜的真相!

可以看到6月27日的指數遠高於其他天數,而且基本上是其他時間的兩到三倍,這一天就是“今天到底是什麼日子”這個話題的誕生之日,並且這一天微博伺服器毫無疑問地“應聲倒地”,我想這一定是讓微博程式設計師懷疑人生的日子

下面我們就來具體看看,這一天到底發生了些什麼:

上萬條資料撕開微博熱搜的真相!

看到這份榜單,我們彷彿看到了程式設計師們6月27日的絕望。宋慧喬&宋仲基離婚這個巨型瓜的出現,程式設計師們還可以用自己的信念支撐著伺服器不要崩潰,然而正當程式設計師們以為穩操勝券的時候,范冰冰&李晨分手這個更加巨大的瓜出現了,我想程式設計師們內心一定是這樣的:

上萬條資料撕開微博熱搜的真相!

因為有了這兩個巨型瓜的存在,使得“張若昀&唐藝昕”,“馬思純當司儀”,“杜江否認出軌”這種平時能夠輕鬆hold住的瓜也產生了威力加成,進一步壓垮程式設計師,就連平時低調的B站也請來了五月天,真可謂是“瓜團錦簇”的一天。我想“今天到底是什麼日子”這條熱搜的創造者很有可能就是新浪微博的程式設計師


第三瓜:2019最勤勞的瓜生產商


前面提到了6月27日是微博程式設計師最為抓狂的日子,那麼又有那些生產商為廣大吃瓜群眾源源不斷地創造吃瓜素材呢,我們也統計了相關資料,想必這些生產商也是廣大程式設計師們最怕的人:

上萬條資料撕開微博熱搜的真相!

榜單中易烊千璽以80次的出現次數榮登榜首,也就是說平均每兩天他就會為廣大群眾生產一次“吃瓜素材”,也是非常地勤勞,想到作者一個月一篇原創的節奏,默默留下了悔恨的淚水。周董也在榜單中以78次的資料位居次席,畢竟周董是一代人的青春記憶,大家也都在時刻關注著周董。

或許大家會認為榜單都被娛樂圈所霸佔,沒啥新意之時,東哥站了出來,成為榮登本榜單的唯一網際網路人士,不過個人還是希望今後不要在榜單中再看到東哥的身影,畢竟老話說得好“no news is good news”。


第四瓜:那些專屬熱搜的詞語


如同“****,是怎樣的體驗”這樣的知乎體,“震驚!***”這樣的uc體,熱搜也有一些比較常出現,能代表熱搜獨特氣質的詞語,我們從中選取了一些比較有代表的詞語並統計其出現次數

上萬條資料撕開微博熱搜的真相!

華為在榜單中出現了86次,也印證了大家在上半年對於華為的關注度,未來也希望有更多類似於“華為**系統上線”這樣振奮人心的訊息出現在熱搜中。

同時在小編看來否認,道歉,心疼這三個詞是非常有特色的熱搜詞語,畢竟很難在其他的地方會時不時就看“心疼**”這種標題,我們針對於這三個詞語製作了相應的詞雲:

否認版

上萬條資料撕開微博熱搜的真相!

208次否認相關話題出現在了熱搜榜單,足以說明在這個資訊爆炸的時代有太多的事情難以去分辨真假,其中一些內容確實是虛造的,當事人也及時站出來進行否認。不過對於其他的一些事情,想必是“真亦假來假亦真”,需要大家自己去判斷

道歉版

上萬條資料撕開微博熱搜的真相!

強烈建議廣大讀者收藏上圖,特別是在被老闆罵或者因為生產BUG而被同事懟的時候拿出來看一下,調節一下自己的心情。想到連菲利普親王都要道歉,及時認個慫好像也沒啥,畢竟你的工資卡里也沒剩幾個錢

心疼版

上萬條資料撕開微博熱搜的真相!

最後這個可以說是極具微博特色了,廣大吃瓜群眾可謂憂國憂民,心疼的物件從韓庚到吳謹言,張雨綺,就連梅西都心疼名單中,這體現出了吃瓜群眾樂於助人的正確價值觀。

不過小編表示還是要先心疼一下自己,上面那些被心疼的人收入都是小編的上百倍甚至更多,還是先心疼一下自己的花唄比較現實

除此之外,微博熱搜也十分熱衷於關心明星是不是哭了以及是不是胖了這種話題,可謂“先天下之憂而憂,後天下之樂而樂”,滿滿的責任感

上萬條資料撕開微博熱搜的真相!

上萬條資料撕開微博熱搜的真相!


第五瓜:明星婚戀話題到底有多火


此前提到,排名靠前的內容大多都是明星婚戀題材的內容,比如**和**離婚,**和**結婚又離婚,或者**和**結婚又離婚又復婚……,我們就來看一下這些話題出現的次數

上萬條資料撕開微博熱搜的真相!

不出所料,廣大吃瓜群眾對於這類題材都有著非常高的好奇心,為別人的婚戀情況操碎了心,可以說是很努力了,想必未來的**婚戀上市公司的老總一定會在吃瓜群眾中誕生,我們也來具體看看那些相關的話題。

結婚 VS 離婚上萬條資料撕開微博熱搜的真相!

上萬條資料撕開微博熱搜的真相!


戀情VS分手上萬條資料撕開微博熱搜的真相!

上萬條資料撕開微博熱搜的真相!最後我們以一句話來結束這部分的吃瓜內容:“貴圈真亂”


第六瓜:2019熱搜中的網際網路專屬瓜


前面說的那些大多都是娛樂圈的內容,作為網際網路從業(banzhuan)人員,對於網際網路的專屬瓜品也有著強烈興趣,我們從中選取了網際網路圈為2019熱搜所生產的瓜品:

上萬條資料撕開微博熱搜的真相!

上萬條資料撕開微博熱搜的真相!

出人意料的是TOP2居然都和B站有關,經過查證,這兩條都發生在最讓微博程式設計師抓狂,瓜團錦簇的6月27日(比較奇怪的是B站十週年應該是6月26日,但上榜時間確是27日),平時八成熟的瓜立刻熟透。相信網際網路人看到這份榜單,也會回憶起很多上半年發生的事情,2019上半年的網際網路也是熱鬧非凡。

吃瓜結語

今天的吃瓜之旅就到這裡結束了,看來吃瓜也是門學問,微博熱搜資料也是一個大的分析寶庫,裡面還有很多可以繼續分析的點,等待大家去挖掘

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2651647/,如需轉載,請註明出處,否則將追究法律責任。

相關文章