怎樣利用微博資料從股市中掘金?氣象臺怎樣預報天氣併發布預警?Google如何通過搜尋行為預報流感爆發?這些有趣的問題背後,其實都隱藏著大資料的影子。基於對搜尋行為、社交媒體等資料的深入分析,可以測量億萬使用者的情緒變化、描繪使用者的行為模式、挖掘使用者的潛在需求,最終發掘出資料中蘊含的真正價值。

2009年Google在《Nature》上公佈了其利用搜尋資料對全球流感疫情近乎實時評估的技術:(1)2012年微軟紐約研究院經濟學家David Rothschild在51個選區中準確預測了50個選區的總統大選結果 (2)美國印第安納大學和曼徹斯特大學的三位學者依靠Twitter的情緒分析預測未來3-4天道瓊斯指數的漲跌 ,準確率高達87.6%(3)。與此同時,大資料技術還被廣泛應用於道路擁堵、彩虹甚至地震等領域的預測。

搜狗搜尋在大資料研究方面已經有一定收穫。自2013年開始,我們決定研發一個有挑戰性的社會化預測系統,命名為#深思#(這個名字來源於《銀河系漫遊指南》中的一部超級計算機),在不同領域進行趨勢預測,期望通過這個綜合系統來發現隱藏在大資料背後的奧祕。

本文以搜狗為案例,分析其電影票房預測的相關技術,其他領域的研究成果將陸續釋出。

 

票房預測:需求與現實

從1896年西洋影戲傳入上海徐園,到1905年中國拍攝首部國產電影《定軍山》,再到2013年全國電影票房突破200億 大關,(4)有著百餘年曆史的中國電影產業,在近幾年呈現出飛躍式發展的態勢,無論是影片質量、院線建設還是投資規模都有了長足的發展。與此同時,隨著“大資料”時代的到來,電影觀影群體、觀影偏好與心理、電影資訊傳播和獲取方式也都在發生著深刻的變化。

毋庸置疑,多樣化資本的加入是中國電影不可或缺的發展引擎,然而,電影行業以投資回報率難以預測著稱,大投入未必有大產出,票房預測工具的缺失使得投資者無法有效對衝投資風險,華人著名導演吳宇森的《風語者》就拖累了米高梅公司最終走向破產。因此製作與發行公司不得不考慮所有對票房有影響的因素:辣媽李小璐對《私人訂製》票房貢獻幾何;《風暴》票房為何遠低於其金牌製片人江志強預期;被吐槽“爛片”的《富山春居圖》和《小時代》緣何票房卻一路走紅;成龍大叔的《警察故事2013》有無必要拍成3D;《泰囧》的“報復性”觀影效應能否復現……這一切的一切其實都可以從“大資料”中找到答案。因為網路上的每一次瀏覽、查詢乃至點選所匯聚成的群體智慧都“蝴蝶效應”般地影響著電影的最終票房。

2013年Google在一份名為《Quantifying Movie Magic with Google Search》(5) 的白皮書中公佈了其電影票房預測模型,該模型主要利用搜尋、廣告點選資料以及院線排片來預測票房,Google宣佈其模型預測票房與真實票房的吻合程度達到了94%,但並未見其公開對未上映電影的預測結果。

搜狗公司藉助“深思”系統,建立了更為複雜的模型,用於預測國內電影票房,並在新浪微博上提前釋出了2013年12月國內上映電影的首周票房預測結果。很高興到目前為止預測結果與真實資料非常接近,同時,我們的模型還可以用於對影響票房的因素進行定量分析。

 

搜尋查詢量的奧祕

搜狗搜尋每天都響應上億次的搜尋請求,查詢詞的分佈和變化趨勢能夠很好的反映出中國網民的興趣點和關注指向。與Google的研究類似,我們也發現,電影上映前相關查詢詞的搜尋次數與票房收入有著很強的關聯性。這一點很好理解,使用者的主動搜尋行為體現了使用者對這部電影的潛在興趣。

我們選取了2013年1-11月國內上映的180部電影的票房和上映前的搜尋量資料作為訓練集,用於訓練一個基礎的線性迴歸模型。實驗發現,單純利用搜尋量訓練得到的模型,預測得到的首周票房與真實票房的相關度R方值僅為68%,這與Google僅用搜尋資料得到的結果70%很接近。(注:R方值取值為0至1,值越大表示模型預測效果越好),這個結果也說明無論在中國還是美國,使用者的搜尋行為是很相似的。

用搜尋量來進行預測票房是一個好的開始,但是準確度還遠遠不夠。同時很多搜尋詞還存在歧義的情況,比如《生化危機》,既是電影也是遊戲,混在一起會造成票房預測值偏高。進一步研究發現,遊戲意圖的查詢請求量較為平穩,但電影意圖的查詢請求在上映前則有一個高峰,也可以通過使用者點選的URL來進一步確認使用者的搜尋意圖。因此模型需要再引入查詢量的變化趨勢和使用者點選的分佈情況。修正後的模型可以達到74%的準確度,這時模型已經可以對電影票房進行一個粗略的估計。

 

社交媒體:使用者的情感分析

社交媒體資料對票房預測也會有一定幫助。假設你是某個明星的粉絲,打算去看他主演的電影,那麼你很可能會提前轉發該電影的相關微博給你的朋友。國外已經有很多預測專案都是在針對Twitter資料做研究,這裡我們主要採用國內部分微博網站的資料來進行預測。通過自然語言理解技術,分析出使用者對未上映影片的情感傾向,從而轉換為使用者的觀影需求。進一步可以考慮的因素包括微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢,這些資料都可以被有效的提煉為特徵並加入到模型中。

微博資料的加入使得準確率超過了80%。

基於垂直媒體的預測

為了衡量電影發行公司的宣傳發行力度以及使用者對宣傳的關注程度,我們也引入了一些垂直媒體的資料來增強預測能力。這裡選擇了一些知名電影站點和頻道進行統計,其中包括視訊類站點(搜狐視訊、優酷土豆、愛奇藝、騰訊視訊),娛樂類站點(搜狐娛樂、新浪娛樂、騰訊娛樂、鳳凰娛樂、網易娛樂)和電影資訊類站點(豆瓣電影、電影網m1905、時光網)。這些網站中電影的相關新聞數、預告片播放情況、使用者評論情況都可以通過定向抓取獲得,這些都是影響電影票房的重要相關因素。顯而易見,中小成本電影往往由於資金有限,不可能做到大範圍的宣傳,而大製作電影的宣傳就會鋪天蓋地。

從統計分析來看,豆瓣電影對票房轉換率的貢獻要高於其它站點,這可能跟站點的使用者構成相關。引入了垂直媒體的資料後,準確率從80%上升到了86%,提升效果顯著。

知立方:挖掘資料的祕密武器

知立方是國內搜尋引擎行業中首家知識庫搜尋產品,它引入了語義理解技術,整合、抽取網際網路碎片化資訊,構建了海量知識庫,包含所有我們需要的導演、演員、編劇的各種資訊。在知立方資料支援下,我們引入知名度指數(CelebrityRank)來衡量一個名人所具有的票房號召力。知名度指數完美地解決了跨領域出演(導演)電影的名人票房號召力無法得以體現的問題。

例如,郭敬明在導演電影《小時代》之前未曾執導,如按傳統方法計算其導演票房號召力則應該為零,這顯然是不合理的。而知名度指數由於考慮了郭敬明是暢銷書作家,故其指數值很高,可以充分體現他作為新晉導演所具有的強大票房號召力。這種情況,從趙薇首導《致青春》、徐錚首導《泰囧》、李小璐從電視圈參演電影《私人訂製》等例子中都有非常具體的體現。基於知立方的資料,可以大致評估出每個演員/導演對票房的影響力,查詢每部電影的屬性,還可以有效的消除同名概念間的歧義。

其它對票房有影響的因素

影響一部電影票房的因素非常繁雜,從電影導演、演員、編劇的票房號召力,到製片與發行公司的投資規模以及宣發成本,再到電影型別、產地、拍攝技術(3D,IMAX)以及是否續集,最後到上映時間、節假日、檔期、競爭影片、院線排片以及上映前後的觀眾關注度、口碑傳播效應甚至天氣都可以影響到一部電影的最終票房。

除了前面已經介紹過的因素外,模型中實際採用的特徵還包括:

 檔期的電影競爭情況。我們發現以往公開的票房預測模型中對每部電影都是獨立預測,沒有考慮電影間的競爭關係,這顯然是不合理的。我們採用了獨有的演算法來估計同檔期的其它影片對市場份額造成的影響。

 電影型別。有意思的是,通過對比實驗發現,科幻片最能提高票房,動作片和犯罪片次之,而文藝片、傳記片和動畫片在模型中表現最差。

 電影產地。電影產地為好萊塢的電影,在其他因素與國產片相近的情況下,對票房大約有3000萬到1.2億不等的提升。

 檔期。特定檔期對票房有額外的加成作用,這個也比較符合預期。

 是否3D。出人意料的是,在其它因素相近的情況下,是否3D對票房的影響非常小,沒有顯著差異。看來“偽3D”們可以省點後期3D製作費啦。

 預告片。通過視訊搜尋預告片的趨勢也可以提前反映影片的受關注程度。

我們成功的把以上技術都整合到“深思”中,對用作訓練的2013年1-11月的電影首周票房資料,最新的模型能夠在交叉驗證的情況下達到95.5%的準確率。

因為訓練集電影的總數較少(180部),我們做了大量的額外工作以確保最後的模型不會出現過擬合(over fitting)的情況。此時的“深思”已經做好了對即將上映電影進行票房預測的準備。

實際預測效果

在實際研究過程中,12月份的電影上映前均使用“深思”系統預測了首周(7天)的電影票房,預測結果釋出在一位團隊成員的微博上。預測效果如下,在已經預測的9部電影中,前4部大片的預測票房與真實票房很接近,比我們的預期還要略好一點。

結語

預測專家納特·西爾弗在《訊號與噪聲:大資料時代預測的科學與藝術》一書中提到,大資料時代的預測更容易失敗,大部分失敗的預測都源於一種盲目的自信,用精確的預測來冒充準確的預測。

對此我們有著清醒的認識,目前的票房預測模型還有若干需要改進的方向。首先,目前模型的主要思想是通過電影上映前的使用者關注度來推算首周票房,這實際上沒有考慮電影上映後的口碑對票房的影響;其次,模型較為依賴歷史資料,可能難以識別一些上映後脫穎而出的小成本“黑馬”電影;再次,目前的技術只能提前10天預報出首周票房,還可以更加超前。

總體而言,“深思”系統代表了搜狗公司在社會化預測方面一些新的嘗試。我們試著從繁雜的海量資料中篩選出真正的訊號,努力穿越不確定性的迷霧,區分出未來圖景的哪些部分可以預測,哪些不可預測。通向這個未來的道路還在探索之中,但目前工作已經取得了一些不錯的進展,並給予了我們更大的信心。