本文來源:《中國計算機學會通訊》 2015年第3期《專題》。作者:劉挺,丁效,趙森棟,段俊文。
引言
社會媒體已經迅速發展成為具有重大影響力的新媒體,併為預測技術提供了新的資料來源。基於社會媒體的預測技術是指透過對社會媒體資料的挖掘與分析,彙集大眾的群體智慧,運用科學的知識、方法和手段,對事物未來發展趨勢和狀態做出科學的估計和評價。
在社會媒體環境中,廣大使用者相互交流、協作,激發創造性思維,透過思想的碰撞與交融使隱性知識資源得到開發和利用。如果能夠有效地挖掘和分析社會媒體的群體智慧,對人們廣泛參與的事件的未來走勢的預測將有很大幫助。
目錄
1.基於社會媒體的預測技術
2.基於消費意圖挖掘的預測
- 基於社會媒體的消費意圖挖掘
- 基於消費意圖挖掘的電影票房預測
3.基於事件抽取的預測
4.基於因果分析的預測
- 因果關係概述
- 因果關係抽取
- 由因導果
- 執果溯因
1.基於社會媒體的預測技術
社會媒體對預測的作用有兩方面:一是社會訊號的採集。例如,如果發現社會媒體上某一特定區域的人群都在釋出資訊說:“我感冒了”,那麼,這一區域很有可能正在傳播流行性疾病,且有爆發的趨勢。二是大眾預測的融合。例如,美國大選期間,推特(Twitter)和臉譜(Facebook)在網上掀起預測熱潮,很多網友在社會媒體上釋出自己的預測結果,這種預測反映了社會媒體的群體智慧。
準確的預測結果對於人們在生活中的趨利避害、工作計劃決策起著至關重要的作用。一個決策產生的結果與該決策本身有著時間上的滯後關係,“利”與“害”總是存在於未來的時間與空間中,任何決策都不可避免地要依賴於預測。對未來趨勢提前做出判斷,有利於適時地調整計劃以及採取措施實施調控。
人類的預測活動分為自然預測和社會預測,分別面向自然界和人類社會。二者又存在較大差異,主要表現在主客體關係、規律性質、複雜程度和不確定性程度等幾個方面,如表1所示。
自然預測的客體是自然現象,自然現象對人類的預測毫無感知能力,其執行軌跡不會因為預測而受到任何干擾。而社會預測的客體本身也是人,人會對預測結果產生因應行為。所謂因應行為,是指被預測的客體根據預測結果調整自己的行為,使得預測結果不準。相對而言,社會要比自然的“受力面”多得多,因而不確定性也大得多,對其進行預測也愈加困難。社會作為一個由大量子系統組成的非線性動態系統,在特定情況下會對某些微小的變數極為敏感。基於社會媒體的預測是指研究人類廣泛參與並與社會發展變化有關的預測問題。
這種預測研究在許多領域都有著廣泛的應用,例如金融市場的走勢預測[1]、產品的銷售情況預測[2]、政治大選結果預測[3]、自然災害的傳播預測[4]等。以往基於社會媒體的預測研究工作主要關注的是相關關係的發現和使用,透過找到一個現象的良好關聯物來幫助瞭解現在和預測未來。例如,根據“微博聲量”以及使用者的情感分析可以預測股票的漲跌、電影票房的收入以及大選結果等。
本文將站在一個全新的視角,介紹基於消費意圖挖掘的預測以及基於事件抽取的預測,並透過挖掘影響預測客體未來走勢的本質原因進一步提高預測精度,研究框架詳見圖1。
在圖1中,基於社會媒體的預測技術需要相關關係和因果關係的共同支撐,相關關係可以從微博聲量統計、情感傾向性分析、話題抽取等方面考慮,也可以運用更復雜的自然語言處理技術,從相關事件的抽取和消費意圖的挖掘方面進行研究。因果關係對預測的幫助包括“由因導果”和“執果溯因”兩方面,前者是正向地利用因果關係進行預測,後者是在預測失效時逆向找出失效的原因。
2.基於消費意圖挖掘的預測
基於社會媒體的消費意圖挖掘
消費意圖是指消費者透過顯式或隱式的方式來表達對於某一產品或服務的購買意願。社會媒體使用者多,釋出的資訊量大。在這些資訊中,使用者會表達各種各樣的需求和興趣愛好。從大量的觀測資料中,我們發現相當比例的社會媒體文字直接包含了使用者的某種消費意圖,例如:
- “體感遊戲還不錯,考慮入手。”
- “好想看《匆匆那年》啊!”
- “我兒子1歲了,醫生說有點缺鈣,需要給孩子吃點什麼呢?”
- “天氣轉冷,換衣的季節到了,今年流行什麼款式和顏色?”
第1條表達了使用者想買體感遊戲機,第2條表達了使用者想去看電影《匆匆那年》,第3條要買補鈣產品,第4條想買冬裝。如果能夠很好地挖掘出社會媒體使用者對於某一產品的購買意願,那麼對於預測該產品的銷量將有重要意義。
消費意圖可分成“顯式消費意圖”和“隱式消費意圖”兩大類。顯式消費意圖是指在使用者所釋出的微博文字中,顯式地指出想要購買的商品,如第1、2兩個例子。而隱式消費意圖是指使用者不會在所釋出的微博文字當中顯式地指出想要購買的商品,需要閱讀者透過對文字語義的理解和進一步推理才能夠猜測到使用者想要購買的商品,如第3、4兩個例子。
對於顯式消費意圖,很多學者透過模式匹配的方法識別。例如,在識別觀影意圖時,基於依存句法分析結果構建模板,識別對某部電影具有顯式觀影意圖的微博,其準確率可以達到80%左右。而隱式消費意圖的識別則難得多,難點包括:(1)如何理解使用者的語義文字,進而理解使用者的消費意圖。這需要我們能夠很好地理解和整合詞彙級的語義特徵以及句子級的語義特徵。例如:要想識別出“我兒子1歲了,醫生說有點缺鈣,需要給孩子吃點什麼呢”這句話包含的消費意圖,需要理解關鍵詞“兒子”、“缺鈣”以及整個句子的含義。(2)使用者消費意圖的挖掘任務是領域相關的,因此構建的模型需要具有領域自適應能力。
為了解決以上難點,文獻[5]首次提出了基於領域自適應卷積神經網路的社會媒體使用者消費意圖挖掘方法。卷積神經網路對於解決該任務有以下兩方面的優勢:
- 卷積神經網路中的卷積層可以以滑動視窗的方式捕捉詞彙級語義特徵,而馬克斯池(max pooling)層則可以很好地將詞彙級特徵整合成句子級語義特徵;
- 卷積神經網路可以學習不同層次的特徵表示,而一些特徵表示則可以在不同領域間遷移。
消費意圖畢竟還只是停留在個人意願層面,有多少使用者會真正將消費意圖轉化成消費行為,這是我們更加關心的話題,也是對於預測更有效的特徵。消費意圖識別的研究分成顯式消費意圖、隱式消費意圖和能夠轉化成行為的意圖三個層次。如圖2所示,顯式消費意圖是使用者消費意圖這座冰山中露出水面的一角,大部分是隱式意圖。而無論是顯式意圖,還是隱式意圖,都只有一部分能夠轉化為購買行為。
基於消費意圖挖掘的電影票房預測
消費意圖挖掘在很多方面都有重要應用,如推薦系統、產品銷量預測等。電影票房預測正是消費意圖研究的一個成功應用:
- 很多與電影相關的資料可以方便地獲取到。網際網路上有很多與電影主題相關的網站,例如美國電影資料庫(Internet Movie Database, IMDB)、中國時光網、豆瓣網等。新浪微博每週至少會有1000萬條以上的訊息討論與電影相關的內容。因此,有足夠的資料用於分析影響電影票房的因素。
- 電影的總票房、周票房甚至是每天的票房都可以比較容易地從IMBD或網票網上獲得,這有助於我們評價實驗結果的好壞,並不斷提高預測準確率。
- 社會媒體的消費意圖資料與電影票房有清晰的邏輯相關性。社會媒體使用者在某部電影上映前釋出了關於某部電影的訊息,說明他對這部電影感興趣並且很有可能會去電影院觀看這部電影。上映前一週的社會媒體資料相對於其他時間段的資料來講,與電影票房的關聯性最強。電影上映之後,帶有情感傾向性的社會媒體內容變得至關重要。因為這類資訊的傳播可以看成是一種口碑營銷,它將很大程度影響潛在消費者。
基於消費意圖理解的電影票房預測相對於傳統的電影票房預測而言,可以說是站在一個全新的角度進行研究。傳統電影票房預測始於20世紀80年代末,美國電影經濟學家巴瑞·利特曼(Barry Litman)在其論文《電影經濟成功預測:基於80年代人的經驗》(Predicting Financial Success of Motion Pictures: The 80’s Experience)[6]中首次提出了電影票房研究的基本模型和方法。總體來講,傳統電影票房預測主要是基於電影相關的特定的結構化資料,比如影片型別、美國電影協會分級、上映時間、是否有續集等。然而,這些方法要麼預測效果不佳,要麼需要一些時間點之後的資料才能得出合理的預測結果,很難被應用於實踐中。
近幾年,一些工作向人們展示了社會媒體在預測方面驚人的力量。例如,基於社會媒體的選舉結果預測[3]、流行病預測[4]、奧斯卡獲獎預測[7]、足球比賽結果預測[8]等。美國惠普實驗室首先在基於社會媒體的電影票房研究中進行了嘗試[2],在他們的研究中有兩個重要的假設:一個是電影在社會媒體中被提及的次數(聲量)越多,電影票房會越高;另一個是社會媒體使用者對電影的評價越高,電影票房越高。但是,我們仔細分析後發現這兩個假設並不成立。因為電影的媒體聲量大並不一定意味著電影的口碑好;電影的口碑好,看的人不一定就多,口碑差,看的人不一定就少。真正能夠做到口碑與票房雙贏的電影並不多。例如,《三槍拍案驚奇》、《畫壁》等電影的口碑較低(豆瓣評分4.6分),但是票房收入不錯(票房收入分別是2.6億元和1.6億元)。本文認為,無論某個產品在社會媒體上被討論得多麼熱烈,評價多麼好,最終有多少人願意購買才是影響產品銷量最本質的因素。另外,對於像電影票房這樣的預測物件,是需要在產品釋出之前給出預測結果的。然而,在產品釋出之前沒有產品的口碑資料,我們只能獲得大眾對該產品的消費意圖資料(購買意願)。因此,基於消費意圖的電影票房預測打破了以往的格侷限制,從最根本的因素出發來預測電影票房收入。
電影票房預測的主流模型可分為線性預測模型和非線性預測模型。這兩個模型都存在一個前提,即認為電影票房收入與預測影響因素之間存線上性或非線性關係。在首周票房預測實驗中,線性迴歸模型實驗結果要好於非線性迴歸模型,而在總票房預測研究中,非線性迴歸模型效果要優於線性迴歸模型。這表明電影上映前一週的資料與首周票房線性關係比較明顯,這時線性迴歸模型的預測能力要高於非線性迴歸模型。隨著時間的推移,各種新的因素不斷加入以及一些偶然情況的發生,使得電影上映前一週的資料與總票房之間的線性關係越來越不明顯,而這時線性迴歸模型的預測能力就要低於非線性迴歸模型。將線性迴歸模型和非線性迴歸模型相結合是該課題未來的一項重要工作。
3.基於事件抽取的預測
基於消費意圖的預測是從人的主觀角度出發進行預測,而基於事件的預測則是從客觀的事實角度出發進行預測。社會媒體中報導的一些事件會對人們的決策產生影響,而人們的決策又會影響到他們的交易行為,這種交易行為最終會導致金融市場的波動。例如,臉譜公司2014年第三季度業績超出預期水平,股價數小時內大漲10%。重要事件會導致股票市場的劇烈震盪,如果能夠及時準確地獲取這些重要事件,勢必會有助於對金融市場波動的預測。
金融市場的預測研究可以追溯到1937年前後,即約翰·梅納德·凱恩斯(John Maynard Keynes)[9]在研究不確定性問題時提出的選美理論。在金融市場投資問題上,不要買自己認為能夠賺錢的金融品種,而是要買大家普遍認為能夠賺錢的品種,哪怕那個品種根本不值錢。投機行為是建立在對大眾心理猜測的基礎上的。1965年,尤金·法瑪(Eugene F. Fama)提出了有效市場假說(efficient market hypothesis)[10]。他認為金融產品的價格應該能夠充分反映關於該資產可獲得的所有資訊,即“資訊有效”,而且每個人都可以在一定程度上獲得這些資訊。這一假設可以作為基於事件抽取的股市預測的理論基礎,原因在於與企業最相關的資訊是它每天發生的各種事件,而且這些事件可以透過新聞渠道被大眾普遍獲取。
金融市場的預測研究可分成時間序列交易資料驅動和文字驅動兩個不同方向。
時間序列交易資料是最早用於建立預測模型的一類資料,主要包括股票歷史價格資料、歷史交易量資料、歷史漲跌資料等。傳統的金融市場預測研究中,金融領域學者多從計量經濟學的角度出發進行時間序列分析,進而預測市場的波動情況。
文字驅動的金融市場預測主要是挖掘新聞報導和社會媒體中報導的客觀事實以及大眾的情感波動。前人的很多研究工作表明,金融領域的新聞在一定程度上會影響股票價格的波動。大衛·卡特勒(David M Cutler)[11]是最早研究新聞報導文字與股票價格之間關係的學者之一,之後自然語言處理技術逐漸被引入到金融市場預測中。而早期被應用在文字表示的技術主要是基於詞袋模型(bag-of-words)。文獻[12,13]指出,基於詞袋模型的文字表示方法並不是最優方案。文獻[12]嘗試抽取文字中的命名實體和名詞短語來擴充套件詞袋模型,文獻[13]提出基於語義框架挖掘出更加豐富的文字特徵。
以上工作存在一個共性的問題,即沒有提取文字中的結構化資訊,而這一資訊對於股票漲跌預測非常重要。例如,“甲骨文公司訴訟谷歌公司侵權”,如果用詞袋模型表示,其形式為{“甲骨文”,“訴訟”,“谷歌”,“侵權”,⋯⋯}。我們從中並不能判斷出是甲骨文公司訴訟谷歌公司,還是谷歌公司訴訟甲骨文公司,也就很難判斷出哪個公司的股價會上漲或下跌。文獻[14]提出了利用結構化的事件預測股票的漲跌。對於上面的例子,如果利用結構化的事件,則可以表示成{(施事:“甲骨文”),(行為:“訴訟”),(受事:“谷歌”)}。由此,我們能夠清楚地知道是甲骨文公司訴訟谷歌公司。在此基礎上可預測谷歌公司的股價有可能受影響而下跌,而甲骨文公司的股價可能會上漲。
除了從文字中挖掘客觀事實外,有些學者還嘗試對文字內容進行情感分析。文獻[1]是較早利用社會媒體上大眾的情緒波動來預測股市波動的文章。文獻[15]透過對文字內容表現出來的積極情感和消極情感對股市波動進行預測。基於情感分析的金融市場預測主要是從主觀情感角度出發進行預測,而基於事件的金融市場預測則是從客觀事實角度出發進行預測,二者可以相互結合,優勢互補,取得更加精準的預測結果。
4.基於因果分析的預測
對於許多預測問題來說,因果分析是十分重要並且高效的。與相關性相比,因果的確定性更強。例如疾病預測、行為預測和政策效用預測等。對於某些事件來說,當沒有過多的相關性資料可用時,因果是最有效的預測指南。例如稀有事件預測、新聞事件預測等。當基於相關性的預測失效時,因果更是預測的唯一指南。因此,當我們對於某一事物預測不準或者認識不準時,一個合理的做法是分析因果並使用因果進行再認識。
因果關係概述
原因與結果是重要的哲學範疇。對事物間因果關係的探索,人類自誕生以來就開始了。因果關係也是人類在漫長的社會實踐中逐步總結出來的一個基本法則,成為人們推理事實和認識未知的指南。本文把因果視為關係、知識和邏輯。
因果是關係 作為一種語義關係,因果關係是語義理解和篇章分析的重要資源。
因果是知識 因果作為一種重要的知識形式,是問答系統和決策的重要依據和資源。要回答“是什麼導致腫瘤縮小”這類問題,一個大型的因果關係知識庫是必要的[16]。對於一個現象或者狀況的出現,我們只有知道導致它出現的原因,才能根據原因做出相應的對策。作為決策依據的因果是區別於相關的本質特性。
因果是邏輯 作為邏輯的因果,是因果最重要的方面。作為科學邏輯中最重要的組成部分,因果邏輯體現在預測邏輯和解釋邏輯兩個方面。因果與相關是兩個不同的重要概念,儘管在很多科學研究中因果比相關更重要,但是目前大資料側重於相關性研究。相關性分析得到的結論有時是不可靠的,甚至是錯誤的。無因果關係的兩個變數之間可能會表現出虛假的相關性。很多例子可以說明虛假相關性,如張三和李四的手錶上的時間具有很強的相關性,但是人為地改變張三的手錶時間,不會引起李四的手錶時間的變化。統計上的研究表明,小學生的閱讀能力與鞋的尺寸有很強的相關性[17],但是很明顯它們沒有因果關係,人為地改變鞋的尺寸,不會提高小學生的閱讀能力。普林斯頓大學發表了一篇論文,稱用谷歌搜尋關鍵詞來預測臉譜,將在2017年喪失80%的使用者。隨後臉譜的資料科學家馬上發表博文進行反駁,說“谷歌搜尋”關鍵詞並不能代表實際趨勢,相關關係並不等於因果關係。隨後,哈佛大學的戴維·拉澤(David Lazer)在《科學》(Science)上發文,質疑2009年《自然》(Nature)上發表的用“谷歌搜尋”關鍵詞預測美國流感的研究工作,因為谷歌在2013年7月份的預測結果超出了實際值的兩倍。
因果關係也可能表現出虛假的獨立性。統計表明:練太極拳的人平均壽命等於或者低於不練太極拳的人。事實上,太極拳確實可以強身健體、延長壽命,但練太極拳的人往往是體弱多病的人,所以表現出虛假的獨立性。因此,表面上相關的事情,實質上可能並無關聯,更沒有因果的必然性;表面上不相關,但可能背後有因果關係。大資料分析不能只考慮相關性,也應該考慮因果關係。
如圖3所示,A代表“氣溫”,B代表“冰淇淋銷量”,C代表“游泳館客流量”。A是B和C的共同原因,A升高會導致B和C的增加。雖然B與C存在統計相關性,但如果想提高B顯然不能透過干預C來達到,而能透過A的升高來達到。
因果關係抽取
因果關係抽取是一個非常基礎且重要的工作。抽取出的因果關係或因果知識可用於預測、問答等。在文字中進行因果抽取就要用到自然語言的處理技術和方法,如詞性標註、句法分析、短語抽取等。對於因果關係抽取和檢測任務來說,前人的工作所使用的線索可以粗略地分為四類:
Lexico-syntactic模板[18]利用Lexico-syntactic模板是一個很直觀的想法。在含有因果關係觸發詞的因果句子中,原因和結果在句子中的詞性和句法角色是有一定規律性的。基於詞性和句法角色的規律性來抽取因果關係觸發“詞對”,是利用Lexico-syntactic模板抽取因果方法的共性。
上下文詞資訊[19] 在自然語言文字中,相同或相似的句法結構對應不同的語義關係,上下文資訊對區別這種相同或相似句法結構的不同語義關係具有重要意義。文獻[20]指出,豐富的上下文資訊對提高因果抽取的準確率是非常必要的。獲得含有因果提及的句子,尤其是含有顯式因果提及的句子是相對容易的。
詞之間的關聯資訊[21] 雖然使用因果關係觸發詞能覆蓋大多數情況,但如果從含有因果提及的句子中抽取出真正存在因果關係的“詞對”或者“事件對”是比較困難的。文獻[20]認為因果提及中的名詞之間、動詞之間、動詞和名詞之間的關聯資訊對於識別因果來說是非常有效的資源。因此提出了一種基於分散式相似性的半指導因果事件的識別演算法。
動詞和名詞的語義關係資訊[22] 在自然語言中一些詞語本身蘊含著因果關係的可能性,例如英文的Increase X, Decrease X, Cause X, Preserve X都很可能激發出一個原因的結果;中文的“增加了X”、“避免了X”、“防止了X”也具有同樣的功能。這些詞一般被稱為觸發詞。基於這種觸發詞模板方法進行因果關係抽取的工作有很多。例如文獻[23],透過把這些作為謂語動詞的觸發詞模板人工地分為CAUSATION, MATERIAL, NECESSITY, USE, PREVENTION五類,來區分抽取到的因果關係的型別;文獻[24]使用因果關係觸發詞抽取文字中的名詞因果對,使用這種因果對來判斷一個句子是否是描述因果邏輯的句子;文獻[18]則利用因果關係詞在大量的新聞語料中獲取事件之間的因果關係。
由因導果
“由因導果”即因果的預測邏輯。看到一個現象或者一個事件的發生,我們總想知道未來可能出現的現象或者發生的事件。對於預測未來,因果無疑是最有效的指南和依據。尤其是在基於相關性分析的預測失效時,若能分析出原因並利用原因進行預測,則預測結果會更加可靠。
透過抽取大規模新聞語料中新聞事件和事件之間的因果關係,文獻[18]把這些因果事件分類、關聯,並組成事件因果關係網路,使用這個網路預測未來事件。所有的因果事件都表示成因果“事件對”的形式,其中原因事件和結果事件都儘量用六元組形式表示。透過計算因果“事件對”之間的相似性來預測結果事件。文獻[25]提出了一種有指導的抽取事件因果的方法,並利用抽取到的事件因果生成未來情景,例如非法汽油(illegal diesel oil)→排放有害物質(emit harmful substance)→導致汙染(cause pollution)→損害人體健康(human body is damaged)。生成類似這種未來情景是透過將多個事件因果對精準匹配的方法連結起來,在此基礎上生成因果事件鏈條。在預測問題上,使用的都是基於匹配的方法。文獻[18]是匹配相似的因果對,文獻[25]是匹配原因事件或者結果事件。
在利用因果來做預測的工作中,事件通常採用的是名詞短語或n元組的表示形式。但基於這種表示形式來做事件的匹配,會漏掉很多事件本身的資訊,從而導致匹配的效果不好。另一類問題是稀有事件的預測。稀有事件是指發生機率很低的事件。例如,公路交通事故、網路欺詐行為、網路入侵行為、信用卡詐騙行為等。稀有事件的預測是一個非常複雜的問題,它需要有對問題本身的深刻理解和對問題中的不確定性進行建模。對於預測稀有事件,資料的稀疏性導致缺少大量的相關關係或相關事件。因此,對稀有事件的預測,既需要具備正確的因果知識,又能夠進行正確的因果分析,同時還能充分利用可以用到的小樣本資料。
執果溯因
“執果溯因”即因果的解釋邏輯。看到一個現象或一個結果我們總想知道“為什麼”。在自然語言文字中,我們對因果解釋邏輯的訴求也是隨處可見。以電商為例,電商網站上有大量使用者對商品的評論資訊,如某些人對商品A持有積極評價,另一些人則對商品A吐槽。作為生產商和銷售商很想知道,為什麼有些人喜歡,而有些人不喜歡?如果能從評論資料中進行分析找到原因,對生產商和銷售商來講都有重大意義。
在社會學和大眾輿情分析領域,大眾對某個社會事件或者社會問題的情感和態度是十分重要的,但是更重要的是大眾持有某種情感或者態度的原因。如果能自動地從文字中尤其是社會媒體文字中挖掘出這些原因,這對於理解民意、維護社會安定具有重大意義。類似這種從文字中分析原因的需求幾乎覆蓋各行各業。在商業決策領域,我們想知道產品銷量提高或者降低的原因,進而做出應對,例如電影票房的漲跌和廣告宣傳的因果作用分析對於宣傳策略的選擇至關重要。在政治決策上同樣如此。為了分析一個時序變數是否對另一個時序變數產生因果作用,文獻[26]提出了一個基於貝葉斯網路的時間序列模型。先預測出一個虛擬結果,進而和真實結果進行對比來評價一個變數對另一個變數的因果作用。比如有一個網站,在某一時刻t加入了一個廣告,那麼這個廣告究竟可以帶來了多少點選量?
如圖4所示,豎切的虛線代表引入廣告的分界線,original部分的實線和虛線分別表示真實的網站點選量曲線和不引入廣告的情況下的網站點選量曲線(反事實點選量曲線,透過預測得到)。Pointwise部分代表的是真實曲線和反事實曲線的差值曲線。Cumulative部分是真實曲線和反事實曲線累積差值。透過觀察累積差值的大小,可以得到引入廣告對網站點選量增加的因果效用,比如得出“引入廣告是網站點選量顯著增加的原因”的結論。
結語
以臉譜、推特、微博為代表的社會媒體的出現,為觀察大眾的心理提供了巨大的資料資源,從而也為預測大眾的行為提供了新的手段。對使用者意圖和相關事件的深入理解,能夠為預測提供更為精準的依據,而因果關係的分析將為預測提供相關性以外的更符合邏輯的預測線索,並找出預測失準的原因以供後續決策。基於社會媒體的預測技術是大資料的重要應用之一,其重要的研究價值和巨大的應用價值必將激勵研究者們不斷地探索。
本文來源於哈工大SCIR