霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

大資料文摘發表於2019-02-13

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?大資料文摘投稿作品

作者:丁卓非

《流浪地球》又火了一把!

說實話,這次火的有點突然。原因也很簡單:一些群眾不服《流浪地球》在豆瓣評分,紛紛跑到了App Store給豆瓣差評,同時安卓端也被攻陷。

這次豆瓣可謂受到了知乎和微博的兩路夾擊,兩個平臺的人民大眾對豆瓣進行了“道德”的批判和無情的鞭撻。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

豆瓣事件霸榜知乎


暫且不論是否有“黑幕”交易,此次爭端的根本在於《流浪地球》這部電影到底好不好看。

文摘菌小規模的獲取了豆瓣的影評資料,讓我們來看看使用者對《流浪地球》到底如何評價。

資料的獲取

影評資料來源於豆瓣。但是豆瓣的反爬機制實在精緻,大量爬取資料還會有法律風險,所以就小規模獲取了600條資料。高分評價、中等評價和低分評價,各自佔了200條,對各個分數段的評價做到平等對待。

程式碼連結:

資料到手了,我們應該怎麼分析這些影評資料呢?按照慣例,詞雲圖肯定不能少。為了對每一分數段的影評資料進行深入分析,瞭解大家的態度,就需要繪製三張詞雲圖。

詞雲圖雖好,但是能夠獲得的資訊還是和有限的,那接下來就要考慮一些其他的黑科技了,畢竟是對一部科幻作品進行分析,手段也要科幻一點。想了半天,決定使用LDA(Latent Dirichlet Allocation)文件主題生成模型,去對這些影評資料進行分析。

LDA是一種非監督機器學習技術,可以用來識別大規模文件集(document collection)或語料庫(corpus)中潛藏的主題資訊。影評雖然不多,但是用起來也不是不行。透過LDA提取topic,我們就可以根據關鍵詞對這些主題進行提煉,能夠把三個分數段的影評很好的聚集起來。

詞雲圖分析

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

讓我們先來看一下高分評價的詞雲圖,這裡展示的詞是top100的高頻詞彙。“國產”、“好萊塢”、“劉慈欣”、“原著”、“特效”等詞喜上榜,可見好評人士認為這部改編自劉慈欣原著的國產電影能夠媲美好萊塢大片的水平。

“硬核”、“親情”也值得注意,硬核科幻加上情感元素,也是好評人士好評的原因。“鼓勵”一詞體現了好評人士對國產科幻電影的期望,可能潛藏著對片中bug的寬容。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

中評認識相對嚴格,這些詞彙可以被概括維以下幾點:1.對吳京的不滿;2.對劇情故事人物尷尬的不滿;3.對原著改編的不滿。這三大不滿,可能是這些人給與中評的原因。這幾個原因是分可能有些主觀。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

差評詞雲圖中的“臺詞”、“演技”、“煽情”、“吳京”、“價值觀”、“尷尬”等詞讓人深思。給了差評的觀眾可能是從專業的嚴格的視角對這部片子進行了技術層面的剖析得出了負責的評論,也可能是因為對吳京的偏見造成了低分,也可能是因為價值觀的不服和做出的差評。

LDA主題分析

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

這張圖是LDA分析出來的結果,先來介紹一下這張圖表示的意思。右邊的這張圖,每個氣泡表示一個主題,氣泡的大小代表主題出現的頻率,氣泡之間的距離代表每個主題之間的接近性,距離越近主題越相似。右上方的lambda表示詞語和主題的相關性,越接近1說明該詞語出現的越頻繁,越接近0說明越特殊,我在後面的分析中選擇lambda為0.6,取一個折中值進行分析。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

這個主題我總結為:演技、故事、臺詞、人物和煽情尷尬。這個主題代表了第一個泡泡,就是上圖中的泡泡1。當然,對主題的概括,不同的人可能有不同的解讀。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

這個是主題2,總結為:《流浪地球》是媲美好萊塢的國產科幻大片,開啟了中國科幻元年,意義深遠。畢竟特效做成這個級別,宇宙觀也大致營造起來了。

霸榜知乎,譴責豆瓣,資料分析告訴你《流浪地球》到底好看麼?

這個主題總結為:吳京戰狼翻版,為了兒子毀滅空間站,邏輯實在受不了。這個主題相對來講對吳京有偏見,但是對劇情表達的情懷的分析還是有些道理。

以上就是基於詞雲和LDA主題模型,對《流浪地球》影評資料分析。畢竟是加入了主觀評價,所以還是有偏差的,對這部電影看法如何可以在留言區寫下你的評價。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2629909/,如需轉載,請註明出處,否則將追究法律責任。

相關文章