資料解讀2019春節檔哪部電影最值得看?
作者:徐麟,目前就職於網際網路公司資料部,哥大統計資料狗,從事資料探勘&分析工作,喜歡用R&Python玩一些不一樣的資料。
來源 | 資料森麟(ID:shujusenlin),知乎同名專欄作者。
前言
隨著春節腳步的臨近,想必各位讀者都已經開始規劃幸福的春節長假該如何度過。闔家團聚,探親訪友,與好久沒見的好基友一起談天說地,懟天懟地,想想都是讓人感到幸福。
除此之外,每年的春節檔電影都會如約而至與大家見面,春節檔誕生了許多的經典電影,2019的春節檔電影也是佳片雲集,被稱作“史上最強春節檔”,今天我們就帶大家一起用資料去解讀其中最值得看的影片。
資料獲取
本次我們的資料主要來源於貓眼,一部分是貓眼的實時預售票房資料:
這部分資料可以通過selenium去獲取,程式碼如下:
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
另一部分資料則來源於貓眼的觀眾評論,由於電影目前都還沒有上映,觀眾評論給出的分數,表示了其對電影的期待值。需要注意的是,有許多觀眾在評論中並沒有給出評分,會直接顯示為0,在後續計算時需要排除,資料如下:
這部分資料的獲取方法可以參照之前《3天破9億!上萬條評論解讀《西虹市首富》是否值得一看》,我們就直接省略爬取程式碼。
預售票房
衡量一個電影關注度的重要方法就是去看首日的預售情況,我們此次選取八部春節檔最主要的影片進行對比,程式碼如下:
p<-ggplot(data[order(data$sale,decreasing = T),][1:8,],
aes(x=reorder(name,sale),y=sale,fill=name))+
geom_bar(stat='identity',width = 0.5)+
geom_image(aes(x=name,y=0,image=image),size=0.08)+
geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+
ggtitle('春節檔電影預售票房排名(萬)') + theme_economist()+ scale_fill_tableau()+
theme(axis.text.x = element_blank(),
axis.text.y = element_blank(),
plot.title = element_text(hjust=0.5,size=30),
panel.grid = element_blank(),
legend.position = 'none',
panel.background = element_blank(),
axis.title = element_blank(),
axis.line = element_blank(),
axis.ticks = element_blank()
)+coord_flip()+ylim(0,6500)
ggsave("春節檔上映前預售排名.png", p, width = 10, height = 16)
看一下最終的結果:
目前預售排名前三位的都是喜劇題材,看來在春節的時候大家還是更加希望能夠放鬆自己,看一下輕鬆題材的影評。但是預售票房並不能完全覺得最終的票房走勢,可以參考之前上映後口碑崩塌的《地球最後的夜晚》和《愛情公寓》。
排名前兩位的影片都有沈騰的參與,看來目前沈騰的票房認可度還是不錯的,希望兩部影片最終都會取得不錯的結果。
從預售票房上看,《廉政風雲》和《神探蒲松齡》都有比較大的撲街危險,考慮到港片近期略顯低迷的表現,希望這兩部影片能夠帶來一些驚喜。
上映前口碑
另外我們也看一下上映之前,觀眾對於影片的整體評價情況,這也會在一定程度上體現觀眾的期待值:
程式碼如下:
p<-ggplot(data[order(data$score,decreasing = T),][1:8,],
aes(x=reorder(name,score),y=score,fill=name))+
geom_bar(stat='identity',width = 0.5)+
geom_image(aes(x=name,y=0,image=image),size=0.08)+
geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+
ggtitle('春節檔電影上映前評價') + theme_wsj()+ scale_fill_tableau()+
theme(axis.text.x = element_blank(),
axis.text.y = element_blank(),
plot.title = element_text(hjust=0.5,size=30),
panel.grid = element_blank(),
legend.position = 'none',
panel.background = element_blank(),
axis.title = element_blank(),
axis.line = element_blank(),
axis.ticks = element_blank()
)+coord_flip()+ylim(0,5)
ggsave("春節檔上映前評分排名.png", p, width = 8, height = 12)
看一下最終的結果:
《熊出沒》出人意料的在評分中排在首位,這也一定程度上提高了作者對這部影片的期待值,雖然以作者的年齡,應該是不適合去看這部影片,《小豬佩奇》憑藉此前的超強營銷,成功引起了大家的主要,然而最終表現如何,還是需要上映後接受觀眾的檢驗。
同時我們看到成龍大哥領銜的《神探蒲松齡》在評分上要落後於其他影片,看來大家對於這類題材的影片持保留意見比較多一些,我們也期待上映後口碑是否能夠實現翻盤。
影片看點
我們最後通過評論去挖掘上映前大家比較關注的點,主要採用jieba分詞,需要注意的是,我們需要在分詞前增加一些自定義詞典,比如“黃景瑜”,如果不加這個自定義詞典,就會被分為“黃景”,之後我們會根據詞語出現頻率篩選出重要的關鍵詞:
def key_words(df):
comment_str = ' '.join(df)
words_list = []
jieba.load_userdict('spring_film_dict.txt')
word_generator = jieba.cut(comment_str) # 返回的是一個迭代 f.close() # stopwords文字中詞的格式是'一詞一行'
for word in word_generator:
words_list.append(word)
words_list = Counter([k for k in words_list if len(k)>1])
return list(dict(words_list.most_common(30)).keys())
最後我們在每個影片中選取了五個能夠體現其看點的詞語,並進行視覺化:
我們選取一些比較有趣的看點組合,進行一下深刻(suixing)解讀:
《神探蒲松齡》:大家都在期待成龍大哥的表演,雖然有很多人提前給其打上了“爛片”的標籤,但是依然期待影片口碑的翻盤。同時大家也會認真關注影片特效,不知是否會致敬此前5毛錢“duang”的特效。
《飛馳人生》《瘋狂的外星人》:感覺沈騰大有承包今年春節檔的態勢,預售排名前兩位影片中,觀眾最關注的看點都是沈騰,期待沈騰春節霸屏同時也能收穫不錯的口碑。沈騰又是和外星人打交道,又是要體驗飛馳的人生,喜歡沈騰的觀眾在春節檔可以大飽眼福了。
《小豬佩奇過大年》:一部適合孩子觀看的影片,也是一部宣傳片獲得極大討論度的影片,希望不要步此前《地球最後的夜晚》上映後口碑崩盤的後塵。
《新喜劇之王》:顯然大部分觀眾對這部影片的期待來自於星爺,有了此前經典版的《喜劇之王》珠玉在前,《新喜劇之王》不可避免地會被哪來與原作對比,我們期待能夠簡直有一部經典的影片出現。
最後提前祝願大家新年愉快,體會與家人團聚的幸福同時也能看到精彩的影片!同時大家也可以在留言區與我們互動,分享自己春節檔會選擇去觀看的影片。
(本文為 AI科技大本營轉載文章,轉載請微信聯絡原作者。)
◆
公開課預告
◆
如何用AI技術為黑白老照片上色?本次公開課中,百度高階研發工程師李超將講述對抗生成網路相關,學術界的研究現狀和應用場景,以及GAN在百度視覺+百度PR+新華社合作的煥彩專案中的應用。
推薦閱讀
相關文章
- 【大資料 Spark】利用電影觀看記錄資料,進行電影推薦大資料Spark
- 豆瓣:2013年瘋狂電影大資料之看電影大資料
- 佩奇撲街、外星人瘋狂!Python 告訴你大年初二應該看哪部電影Python
- 芒果移動:2015年春節資料解讀
- 貓眼研究院:2019暑期檔電影市場資料洞察
- 2022年春節檔資料分析:兩超多強引領市場,中國電影觀眾回來了
- 涉案金額2.3億 春節檔電影侵權盜版系列專案偵破
- 資料解讀:在“超級碗”投廣告真的值得嗎?–資料資訊圖
- 小程式之豆瓣電影原始碼解讀原始碼
- scrapy 爬電影 抓取資料
- win10看電影自動變暗怎麼解決 win10電腦看電影時螢幕變暗如何處理Win10
- 從入門到研究,人工智慧領域最值得一讀的10本資料人工智慧
- 從看電影到“玩”電影,電影技法究竟如何在遊戲中融合和應用遊戲
- 【詳解】換一個角度看Socket的資料讀寫
- 學Java最值得讀的10本英文書Java
- scrapy爬取豆瓣電影資料
- 燈塔專業版:2024春節檔票房超67.66億 進入中國影史春節檔票房前二
- 資料解讀:網約車細則將影響哪些人
- 個推大資料:2019春節瘦身城市排行報告大資料
- 資料解讀:大屏手機影響平板電腦的銷量似乎已是不爭的事實
- 今日資料行業日報(2021.02.19)『春節檔電影總票房超過80億 重新整理多項世界紀錄』行業
- 福利來啦!VIP電影免費看!
- 豆瓣:2013年瘋狂電影大資料之聊電影大資料
- 解讀2016年最值得讀的三篇NLP論文 + 線上Chat實錄
- “腦洞大師”為何會霸榜最強手遊春節檔
- 資料解讀:最終幻想和馬里奧同時折翼
- 2019微信資料包告:猜猜看今年最火的表情是什麼?
- 電影名解釋
- 從豆瓣電影批量獲取看過這部電影的使用者列表
- 從《英雄聯盟》手遊成績看解讀資料的邏輯
- 商業週刊:資料解讀社交媒體看美國大選
- Smartbi解讀最嚴《資料安全法》,開啟資料安全保護“新思路”!
- 貓眼研究院:2022春節檔資料洞察
- Github 2019 年最值得關注的資料科學專案 Virgilio(維吉爾) 中文版Github資料科學
- win10為什麼我的電腦看電影會鎖屏 win10電腦看電影自動鎖屏處理方法Win10
- Top10: 11 月份最值得閱讀的 CSS 文章CSS
- 大資料解讀大資料
- 拓端:資料把握電影市場需求