資料解讀2019春節檔哪部電影最值得看?
作者:徐麟,目前就職於網際網路公司資料部,哥大統計資料狗,從事資料探勘&分析工作,喜歡用R&Python玩一些不一樣的資料。
來源 | 資料森麟(ID:shujusenlin),知乎同名專欄作者。
前言
隨著春節腳步的臨近,想必各位讀者都已經開始規劃幸福的春節長假該如何度過。闔家團聚,探親訪友,與好久沒見的好基友一起談天說地,懟天懟地,想想都是讓人感到幸福。
除此之外,每年的春節檔電影都會如約而至與大家見面,春節檔誕生了許多的經典電影,2019的春節檔電影也是佳片雲集,被稱作“史上最強春節檔”,今天我們就帶大家一起用資料去解讀其中最值得看的影片。
資料獲取
本次我們的資料主要來源於貓眼,一部分是貓眼的實時預售票房資料:
這部分資料可以通過selenium去獲取,程式碼如下:
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://piaofang.maoyan.com/dashboard?date=2019-02-05'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
另一部分資料則來源於貓眼的觀眾評論,由於電影目前都還沒有上映,觀眾評論給出的分數,表示了其對電影的期待值。需要注意的是,有許多觀眾在評論中並沒有給出評分,會直接顯示為0,在後續計算時需要排除,資料如下:
這部分資料的獲取方法可以參照之前《3天破9億!上萬條評論解讀《西虹市首富》是否值得一看》,我們就直接省略爬取程式碼。
預售票房
衡量一個電影關注度的重要方法就是去看首日的預售情況,我們此次選取八部春節檔最主要的影片進行對比,程式碼如下:
p<-ggplot(data[order(data$sale,decreasing = T),][1:8,],
aes(x=reorder(name,sale),y=sale,fill=name))+
geom_bar(stat='identity',width = 0.5)+
geom_image(aes(x=name,y=0,image=image),size=0.08)+
geom_text(aes(x=name,y=2500,label=label_sale),size = 7,col='black',fontface='bold')+
ggtitle('春節檔電影預售票房排名(萬)') + theme_economist()+ scale_fill_tableau()+
theme(axis.text.x = element_blank(),
axis.text.y = element_blank(),
plot.title = element_text(hjust=0.5,size=30),
panel.grid = element_blank(),
legend.position = 'none',
panel.background = element_blank(),
axis.title = element_blank(),
axis.line = element_blank(),
axis.ticks = element_blank()
)+coord_flip()+ylim(0,6500)
ggsave("春節檔上映前預售排名.png", p, width = 10, height = 16)
看一下最終的結果:
目前預售排名前三位的都是喜劇題材,看來在春節的時候大家還是更加希望能夠放鬆自己,看一下輕鬆題材的影評。但是預售票房並不能完全覺得最終的票房走勢,可以參考之前上映後口碑崩塌的《地球最後的夜晚》和《愛情公寓》。
排名前兩位的影片都有沈騰的參與,看來目前沈騰的票房認可度還是不錯的,希望兩部影片最終都會取得不錯的結果。
從預售票房上看,《廉政風雲》和《神探蒲松齡》都有比較大的撲街危險,考慮到港片近期略顯低迷的表現,希望這兩部影片能夠帶來一些驚喜。
上映前口碑
另外我們也看一下上映之前,觀眾對於影片的整體評價情況,這也會在一定程度上體現觀眾的期待值:
程式碼如下:
p<-ggplot(data[order(data$score,decreasing = T),][1:8,],
aes(x=reorder(name,score),y=score,fill=name))+
geom_bar(stat='identity',width = 0.5)+
geom_image(aes(x=name,y=0,image=image),size=0.08)+
geom_text(aes(x=name,y=2,label=label_score),size = 7,col='black',fontface='bold')+
ggtitle('春節檔電影上映前評價') + theme_wsj()+ scale_fill_tableau()+
theme(axis.text.x = element_blank(),
axis.text.y = element_blank(),
plot.title = element_text(hjust=0.5,size=30),
panel.grid = element_blank(),
legend.position = 'none',
panel.background = element_blank(),
axis.title = element_blank(),
axis.line = element_blank(),
axis.ticks = element_blank()
)+coord_flip()+ylim(0,5)
ggsave("春節檔上映前評分排名.png", p, width = 8, height = 12)
看一下最終的結果:
《熊出沒》出人意料的在評分中排在首位,這也一定程度上提高了作者對這部影片的期待值,雖然以作者的年齡,應該是不適合去看這部影片,《小豬佩奇》憑藉此前的超強營銷,成功引起了大家的主要,然而最終表現如何,還是需要上映後接受觀眾的檢驗。
同時我們看到成龍大哥領銜的《神探蒲松齡》在評分上要落後於其他影片,看來大家對於這類題材的影片持保留意見比較多一些,我們也期待上映後口碑是否能夠實現翻盤。
影片看點
我們最後通過評論去挖掘上映前大家比較關注的點,主要採用jieba分詞,需要注意的是,我們需要在分詞前增加一些自定義詞典,比如“黃景瑜”,如果不加這個自定義詞典,就會被分為“黃景”,之後我們會根據詞語出現頻率篩選出重要的關鍵詞:
def key_words(df):
comment_str = ' '.join(df)
words_list = []
jieba.load_userdict('spring_film_dict.txt')
word_generator = jieba.cut(comment_str) # 返回的是一個迭代 f.close() # stopwords文字中詞的格式是'一詞一行'
for word in word_generator:
words_list.append(word)
words_list = Counter([k for k in words_list if len(k)>1])
return list(dict(words_list.most_common(30)).keys())
最後我們在每個影片中選取了五個能夠體現其看點的詞語,並進行視覺化:
我們選取一些比較有趣的看點組合,進行一下深刻(suixing)解讀:
《神探蒲松齡》:大家都在期待成龍大哥的表演,雖然有很多人提前給其打上了“爛片”的標籤,但是依然期待影片口碑的翻盤。同時大家也會認真關注影片特效,不知是否會致敬此前5毛錢“duang”的特效。
《飛馳人生》《瘋狂的外星人》:感覺沈騰大有承包今年春節檔的態勢,預售排名前兩位影片中,觀眾最關注的看點都是沈騰,期待沈騰春節霸屏同時也能收穫不錯的口碑。沈騰又是和外星人打交道,又是要體驗飛馳的人生,喜歡沈騰的觀眾在春節檔可以大飽眼福了。
《小豬佩奇過大年》:一部適合孩子觀看的影片,也是一部宣傳片獲得極大討論度的影片,希望不要步此前《地球最後的夜晚》上映後口碑崩盤的後塵。
《新喜劇之王》:顯然大部分觀眾對這部影片的期待來自於星爺,有了此前經典版的《喜劇之王》珠玉在前,《新喜劇之王》不可避免地會被哪來與原作對比,我們期待能夠簡直有一部經典的影片出現。
最後提前祝願大家新年愉快,體會與家人團聚的幸福同時也能看到精彩的影片!同時大家也可以在留言區與我們互動,分享自己春節檔會選擇去觀看的影片。
(本文為 AI科技大本營轉載文章,轉載請微信聯絡原作者。)
◆
公開課預告
◆
如何用AI技術為黑白老照片上色?本次公開課中,百度高階研發工程師李超將講述對抗生成網路相關,學術界的研究現狀和應用場景,以及GAN在百度視覺+百度PR+新華社合作的煥彩專案中的應用。
推薦閱讀
相關文章
- 2019年春節期間所看電影的短評
- 藝恩:2021年春節檔電影報告(附下載)
- 2022年春節檔資料分析:兩超多強引領市場,中國電影觀眾回來了
- 貓眼研究院:2022春節檔資料洞察
- 【大資料 Spark】利用電影觀看記錄資料,進行電影推薦大資料Spark
- 個推大資料:2019春節瘦身城市排行報告大資料
- 燈塔專業版:2024春節檔票房超67.66億 進入中國影史春節檔票房前二
- 貓眼研究院:2019暑期檔電影市場資料洞察
- 涉案金額2.3億 春節檔電影侵權盜版系列專案偵破
- 今日資料行業日報(2021.02.19)『春節檔電影總票房超過80億 重新整理多項世界紀錄』行業
- 盤點2021年春節檔手遊:誰最吸金,誰最吸量?
- 佩奇撲街、外星人瘋狂!Python 告訴你大年初二應該看哪部電影Python
- 2018春節旅行大資料分析大資料
- TalkingData:2022春節年貨資料
- PTA——看電影
- 《流浪地球2》官方:2023春節檔《流浪地球2》電影累計票房已經突破26億元
- “腦洞大師”為何會霸榜最強手遊春節檔
- 春節檔電影搶先揭秘? 《滿江紅》聯動《長安幻想》打造開年懸疑大戲
- 《熊出沒·重返地球》成中國影史春節檔動畫片檔期票房冠軍動畫
- steam2022春節特惠時間介紹 steam2022春節特惠哪些遊戲值得買遊戲
- 閱文:2020年春節閱讀大資料 醫療題材網文閱讀量暴增大資料
- 2022春節賀歲檔電影開分,水門橋不理想,四海崩了!用Python一探究竟Python
- 京東:2020年春節消費大資料大資料
- 春節電影扎堆宣傳序幕揭開 韓寒變“駕校教練”UQ
- 提前「統治」春節檔?它出手了!
- 快來看!樂高80101春節家宴,拆箱細節釋出了!
- 大資料剖析:疫情對春節期間葡萄酒消費影響到底有多大?大資料
- 從入門到研究,人工智慧領域最值得一讀的10本資料人工智慧
- 【詳解】換一個角度看Socket的資料讀寫
- 『2019年春節期間移動資料流量消費達195.7萬TB 』今日資料行業日報(2019.02.14)行業
- 今年的春節檔,誰是最大贏家?
- 什麼電商資料值得爬取?
- AppGrowing:2019春節假期移動廣告投放洞察APP
- 春節前股票大跌春節後會怎樣?2022春節股市走勢如何?
- 噹噹:2019年情人節閱讀大資料 70後研究性學大資料
- 2019春節紅包報告:幾個資料帶你回顧薅紅包大混戰
- 京東:2019年春節銷售資料 廚具銷售額同比增長近4倍
- 全國主要省市2022春節銷售資料出爐