霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

大資料文摘發表於2019-02-13

原文網址 : http://blog.itpub.net/31562039/viewspace-2629909/

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？ 大資料文摘投稿作品

作者：丁卓非

《流浪地球》又火了一把！

說實話，這次火的有點突然。原因也很簡單：一些群眾不服《流浪地球》在豆瓣評分，紛紛跑到了App Store給豆瓣差評，同時安卓端也被攻陷。

這次豆瓣可謂受到了知乎和微博的兩路夾擊，兩個平臺的人民大眾對豆瓣進行了“道德”的批判和無情的鞭撻。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

豆瓣事件霸榜知乎

暫且不論是否有“黑幕”交易，此次爭端的根本在於《流浪地球》這部電影到底好不好看。

文摘菌小規模的獲取了豆瓣的影評資料，讓我們來看看使用者對《流浪地球》到底如何評價。

資料的獲取

影評資料來源於豆瓣。但是豆瓣的反爬機制實在精緻，大量爬取資料還會有法律風險，所以就小規模獲取了600條資料。高分評價、中等評價和低分評價，各自佔了200條，對各個分數段的評價做到平等對待。

程式碼連結：

https://github.com/zmddzf/wandering_earth

資料到手了，我們應該怎麼分析這些影評資料呢？按照慣例，詞雲圖肯定不能少。為了對每一分數段的影評資料進行深入分析，瞭解大家的態度，就需要繪製三張詞雲圖。

詞雲圖雖好，但是能夠獲得的資訊還是和有限的，那接下來就要考慮一些其他的黑科技了，畢竟是對一部科幻作品進行分析，手段也要科幻一點。想了半天，決定使用LDA(Latent Dirichlet Allocation)文件主題生成模型，去對這些影評資料進行分析。

LDA是一種非監督機器學習技術，可以用來識別大規模文件集（document collection）或語料庫（corpus）中潛藏的主題資訊。影評雖然不多，但是用起來也不是不行。通過LDA提取topic，我們就可以根據關鍵詞對這些主題進行提煉，能夠把三個分數段的影評很好的聚集起來。

詞雲圖分析

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

讓我們先來看一下高分評價的詞雲圖，這裡展示的詞是top100的高頻詞彙。“國產”、“好萊塢”、“劉慈欣”、“原著”、“特效”等詞喜上榜，可見好評人士認為這部改編自劉慈欣原著的國產電影能夠媲美好萊塢大片的水平。

“硬核”、“親情”也值得注意，硬核科幻加上情感元素，也是好評人士好評的原因。“鼓勵”一詞體現了好評人士對國產科幻電影的期望，可能潛藏著對片中bug的寬容。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

中評認識相對嚴格，這些詞彙可以被概括維以下幾點：1.對吳京的不滿；2.對劇情故事人物尷尬的不滿；3.對原著改編的不滿。這三大不滿，可能是這些人給與中評的原因。這幾個原因是分可能有些主觀。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

差評詞雲圖中的“臺詞”、“演技”、“煽情”、“吳京”、“價值觀”、“尷尬”等詞讓人深思。給了差評的觀眾可能是從專業的嚴格的視角對這部片子進行了技術層面的剖析得出了負責的評論，也可能是因為對吳京的偏見造成了低分，也可能是因為價值觀的不服和做出的差評。

LDA主題分析

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

這張圖是LDA分析出來的結果，先來介紹一下這張圖表示的意思。右邊的這張圖，每個氣泡表示一個主題，氣泡的大小代表主題出現的頻率，氣泡之間的距離代表每個主題之間的接近性，距離越近主題越相似。右上方的lambda表示詞語和主題的相關性，越接近1說明該詞語出現的越頻繁，越接近0說明越特殊，我在後面的分析中選擇lambda為0.6，取一個折中值進行分析。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

這個主題我總結為：演技、故事、臺詞、人物和煽情尷尬。這個主題代表了第一個泡泡，就是上圖中的泡泡1。當然，對主題的概括，不同的人可能有不同的解讀。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

這個是主題2，總結為：《流浪地球》是媲美好萊塢的國產科幻大片，開啟了中國科幻元年，意義深遠。畢竟特效做成這個級別，宇宙觀也大致營造起來了。

霸榜知乎，譴責豆瓣，資料分析告訴你《流浪地球》到底好看麼？

這個主題總結為：吳京戰狼翻版，為了兒子毀滅空間站，邏輯實在受不了。這個主題相對來講對吳京有偏見，但是對劇情表達的情懷的分析還是有些道理。

以上就是基於詞雲和LDA主題模型，對《流浪地球》影評資料分析。畢竟是加入了主觀評價，所以還是有偏差的，對這部電影看法如何可以在留言區寫下你的評價。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31562039/viewspace-2629909/，如需轉載，請註明出處，否則將追究法律責任。

相關文章

地球如果流浪，大資料究竟能做什麼？
2019-09-16
大資料
豆瓣：2023年度電影榜單《流浪地球 2》斬獲最高評分華語電影
2023-12-26
資料分析告訴你，炒股能賠多少錢？
2021-02-05
九個方面告訴你，一個合格的資料分析師，到底要什麼能力？
2018-05-29
用大白話告訴你，Java到底是什麼
2021-01-19
Java
Python分析42年高考資料，告訴你高考為什麼這麼難？
2019-06-10
Python
碼教授告訴你大資料該怎麼用
2018-08-22
大資料
Python大佬分析了15萬歌詞，告訴你民謠歌手們到底在唱什麼
2019-02-28
Python
碼教授告訴你大資料具體指的是什麼？
2018-08-10
大資料
一文告訴你大資料是什麼
2022-03-24
大資料
數字孿生對地球負責，金倉資料庫對資料負責
2022-03-07
資料庫
IT大佬告訴你大資料有哪些特點，新人學習必知
2019-08-28
大資料
資料分析告訴你：為啥近5年來Python如此火爆？
2019-09-27
Python
用大白話告訴你：Java 後端到底是在做什麼？
2019-10-18
Java後端
收藏 | 一文告訴你大資料分析對企業有什麼幫助
2022-04-21
大資料
資料告訴你，胡歌的微世界
2019-02-16
NuoDB：告訴你未來的資料庫是什麼樣VU
2022-03-21
資料庫
什麼是雲資料庫？這篇文章詳細告訴你！
2021-04-22
資料庫
銀行科技到底怎麼樣？我曾經的四年告訴你！
2021-03-01
《流浪地球2》官方：2023春節檔《流浪地球2》電影累計票房已經突破26億元
2023-01-30
讓 CPU 告訴你硬碟和網路到底有多慢
2019-02-15
硬碟
大資料最核心的價值是什麼？三點告訴你！
2019-04-25
大資料
顛覆認知！北京是不是便利店荒漠？三組資料告訴你答案！
2021-07-16
實在智慧RPA告訴你小行星撞地球不可怕，高效工作才是王道
2021-11-13
一文告訴你自然語言資料分析NLA發展簡史
2022-05-23
電源功率到底選多大？老司機告訴你電源功率怎麼選？
2018-08-04
如何看懂DOE分析報告？這篇文章告訴你
2023-09-18
用資料告訴你，今年考研上岸有多難！
2022-03-23
知乎熱榜“人臉安全”，這些博主怎麼看
2022-11-10
資料告訴你，抖音是怎麼在半年之內逆襲的
2018-03-19
告訴你什麼是Pixelmator Pro for Mac！
2020-09-25
Mac
大資料告訴你買車的正確姿勢！
2018-03-15
大資料
龍象之爭：資料告訴你真實的差距
2020-09-10
資料視覺化告訴你，北京究竟有多熱？
2021-09-09
視覺化
這款在TapTap連續霸榜的遊戲到底是什麼背景？
2021-01-26
APT遊戲
用資料告訴你：SDK加固為什麼應該選擇網易易盾
2019-11-23
volatile和synchronized到底啥區別？多圖文講解告訴你
2020-03-06
synchronized
一文告訴你資料和資訊的區別
2022-04-19