谷歌公佈了一項重要研究成果–電影票房預測模型。該模型能夠提前一個月預測電影上映首周的票房收入,準確度高達94%。這在業內引起了強烈討論,不少內人士認為該模型非常適合好萊塢電影公司通過預測票房來及時調整電影營銷戰略,但同時也有吐槽者暗示谷歌的票房預測模型別有用心,旨在鼓動電影公司購買其搜尋引擎廣告。那麼,孰是孰非,谷歌票房預測模型以及大資料在電影行業的應用是噓頭,還是大有來頭,讓我們來一探究竟。

谷歌票房預測模型的基礎:電影相關的搜尋量與票房收入的關聯

谷歌的票房預測模型是大資料分析技術在電影行業的一個重要應用。隨著網際網路的發展,人們越來越習慣於在網上搜尋電影資訊。據谷歌統計,從2011到2012年,電影相關的搜尋量增長了56%。谷歌發現,電影相關的搜尋量與票房收入之間存在很強的關聯。

圖1顯示了2012年電影票房收入(紅色)和電影的搜尋量(灰色)的曲線(注:本文的所有圖片均引用自谷歌的白皮書:QuantifyingMovieMagicwithGoogleSearch)。可以看到,兩條曲線的起伏變化有著很強的相似性。

\

圖1.2012年票房收入與搜尋量的曲線
(紅色是票房收入,灰色是搜尋量,橫軸是月份,縱軸是數量)

更進一步地,谷歌把電影的搜尋分成了兩類:

I.涉及電影名的搜尋(MovieTitleSearch);

II.不涉及電影名的搜尋(Non-TitleFilm-RelatedSearch)。這類搜尋不包含具體的名字,而是一些更寬泛的關鍵詞搜尋,如“熱門電影”、“愛情片”、“好萊塢電影”等。

圖2顯示了票房收入與這兩類搜尋量之間的關係。從圖上可以看到,大部分情況下,第I類搜尋量超過第II類搜尋量。但在電影淡季的時候(圖中灰色橢圓區域,這時候票房收入較低),第I類搜尋量會低於第II類搜尋量。這符合常理,因為在淡季的時候知名度高的電影很少,人們往往用更寬泛的搜尋來尋找想看的電影。

\

圖2.2012年票房收入和兩類搜尋量的曲線

(紅色代表票房收入,藍色代表第I搜尋,灰色代表第II類搜尋,橫軸是月份,縱軸是數量)

這一發現對電影的網路營銷來說有一定的指導意義:在淡季的時候,電影公司可多購買相對寬泛的關鍵詞的廣告,而在旺季的時候,多購買涉及電影名的、更具體的關鍵詞的廣告。

提前一週預測票房,可達到92%的準確度

上面的討論表明用電影的搜尋量來預測票房是有可能的。那麼,如果單純使用搜尋量來預測首周票房收入,效果怎麼樣?通過對2012年上映的99部電影的研究,谷歌發現僅依靠搜尋量來預測是不夠的。谷歌嘗試構建了一個線性的模型,但只達到了70%的準確度(如圖3)。

\

圖3.搜尋量與首周票房收入之間的關係

(橫軸是搜尋量,縱軸是首周票房收入,灰色點對應某部電影的搜尋量與首周票房收入)

為了構建更加精確的預測模型,谷歌最終採用了四類指標:

(1)(電影放映前一週的)電影的搜尋量

(2)(電影放映前一週的)電影廣告的點選量

(3)上映影院數量

(4)同系列電影前幾部的票房表現

其中每類指標又包含了多項類內指標。

在獲取到每部電影的這些指標後,谷歌構建了一個線性迴歸模型(linearregressionmodel)模型,來建立這些指標和票房收入的關係。線性迴歸模型,在大資料分析領域裡算是最基本的模型之一,它認為票房收入與這些指標之間是簡單的線性關係。

圖4展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預測的票房收入。可以看到,預測的結果與實際的結果差異很小。

\

圖4.提前一週預測票房的效果

(橫軸是搜尋量,縱軸是首周票房收入,灰色點對應某部電影的首周票房收入,紅色點對應預測的首周票房收入)

  提前一個月預測票房,可達到94%的準確度

 儘管提前一週預測可以達到92%的準確度,對於電影的營銷來說,價值並不大,因為一週的時間往往很難調整營銷策略,改善營銷效果。因此,谷歌又進一步研究,使得模型可以提前一個月預測首周票房。

實現提前一個月預測的關鍵在於:谷歌採用了一項新的指標–電影預告片的搜尋量。谷歌發現,預告片的搜尋量比起電影的直接搜尋量而言,可以更好的預測首周票房表現。這一點不難理解,因為在電影放映前一個月的時候,人們往往更多地搜尋預告片。

僅使用預告片的搜尋量仍然不夠,因此谷歌的模型最終採用了三類指標:

(1)電影預告片的搜尋量

(2)同系列電影前幾部的票房表現

(3)檔期的季節性特徵

其中每類指標又包含了多項類內指標。

在獲取到每部電影的這些指標後,谷歌再次構建了一個線性迴歸模型(linearregressionmodel)模型,來建立這些指標和票房收入的關係。

圖5展示了模型的效果,其中灰色點代表了實際的票房收入,紅色點代表了預測的票房收入。可以看到,預測結果與實際結果非常接近。

\

圖5提前一個月預測票房的效果

(橫軸是預告片搜尋量,縱軸是首周票房收入,灰色點對應實際某部電影的首周票房收入,紅色點對應預測的首周票房收入)

  為什麼谷歌採用了這麼簡單的模型

前面的分析中已經提到,谷歌採用的是資料分析中最簡單的模型之一-線性迴歸模型。這對很多讀者來說多少有點意外。為什麼谷歌用的模型如此簡單?

首先,線性模型雖然簡單,但已經達到了很高的準確度(94%)。簡單且效果好,是我們在實際應用中一直追求的。

其次,簡單的模型易於被人們理解和分析。大資料分析技術的優勢正是能夠從大量資料中挖掘出人們可以理解的規律,從而加深對行業的理解。正是因為谷歌使用了線性預測模型,所以它很容易對各項指標的影響做出分析。例如谷歌的報告中給出了這樣的分析結論:“距離電影上映一週的時候,如果一部影片比同類影片多獲得25萬搜尋量,那麼該片的首周票房就很可能比同類影片高出430萬美元。若一部電影有搜尋引擎廣告,我們也可以通過其廣告的點選量來推測票房表現——如果點選量超出同類電影2萬,那該片首周票房將領先750萬美元”。

對於電影的營銷來說,掌握各項指標對票房收入的影響,可以優化營銷策略,降低營銷成本。谷歌的報告中指出,使用者一般會通過多達13個渠道來了解電影的資訊。票房預測模型的出現無疑使得營銷策略的制定更加有效。

  大資料分析在電影行業的應用前景:把模糊的行業經驗變得更科學,更精準

票房預測模型的公佈,讓業內人士再次見證了大資料的成功應用。近年來,大資料在電影行業的應用越來越引起關注,比如此前谷歌利用搜尋資料預測了奧斯卡獲獎者,Neflix通過大資料分析深度挖掘了使用者的喜好,捧紅了《紙牌屋》等。但大資料對電影行業的價值到底如何,仍然眾說紛紜。夢工廠CEO卡森伯格最近接受騰訊財經專訪時發表了一個似乎悲觀的態度:電影創作靠創造力,不靠資料分析。

要理解大資料對電影行業的影響,首先需要對大資料分析有正確的認識。大資料分析的本質,在於通過資料,更精準地挖掘使用者的需求。而誰能掌握使用者的需求,誰就可以引領行業的發展。谷歌的票房預測模型,本質上也是通過搜尋量,挖掘出使用者對電影的需求有多大,進而預測出票房收入。值得注意的是,谷歌的模型基於的只是巨集觀的搜尋量的統計,對使用者需求的挖掘相對錶面。如何從搜尋資料中更深地挖掘使用者的需求將是未來的趨勢之一。

既然大資料分析的核心是挖掘使用者需求,所以一大核心問題是:哪些使用者的需求是可以從資料中挖掘到的?要知道,並不是任何需求都可以被挖掘到,或者說可以被精準地挖掘到。能夠通過大資料分析挖掘到的需求,一般是符合行業經驗的,應當是業內人士覺得可以被挖掘的(有時候,挖掘出的需求可能會超出行業經驗,甚至產生顛覆性的影響)。谷歌的預測模型的基本假設,是符合行業直覺的,即電影的搜尋量越大,往往票房收入越大。模型能夠提前一個月預測票房,也符合行業經驗,正如谷歌的一項行業調研揭示的:大多數觀眾會在電影首映4周前去了解電影。資料分析技術,是把這種模糊的行業經驗,變得更科學,變得更精準。而這一過程,很可能會深層次地改變電影行業。

要將大資料分析更廣泛地應用於電影行業,可以從以下幾個方面去探索:

 一.我們可以獲得哪些資料。大資料時代的特點是資料來源廣泛,可以是業內釋出的資料,也可以是來自搜尋引擎、社交媒體等的資料。有些資料看似關聯不強(比如社交媒體資料),但往往能從中挖掘到使用者的潛在需求。

 二.從資料中,我們想挖掘什麼資訊。谷歌的模型,挖掘了搜尋量等資料與票房收入的關聯;Netflix的模型,則挖掘了觀眾對不同電影的偏好,以及其他的行為特點。挖掘什麼資訊,一方面取決於我們有哪些資料,另一方面也取決於什麼樣的資訊可能有助於商業決策。

三.有什麼行業經驗是可以結合的。單純地資料分析,可能會找到很多規律,但這些規律未必是有實際價值的。只有當資料結合行業經驗,才更容易形成精準的行業模型,從而產生巨大的價值。

而卡森伯格說的“不靠資料”,更多的是強調電影創作本身。電影的創作充滿了藝術,是很難形成科學的規律的。即便如此,大資料對電影創作也可以起到一定的輔助作用。畢竟,瞭解觀眾的需求,也是電影創作的重要參考。

  作者介紹:

史源,南加州大學計算機系博士生,南加州大學傳媒學院研究員,卡內基梅隴大學計算機系訪問學者,擁有多年的大資料分析經驗,涉及領域包括網際網路、媒體、醫療等。同時,他也是非營利機構@PlusYoou普創(致力於為在美華人提供創業服務)和留學電商平臺Cloudapply的聯合創始人。

via:reelme