AAEAAQAAAAAAAAYAAAAAJDVkZDg5OWI5LWRlNGEtNGRlYi04Y2I5LTgzNDExZmVkMTZiYg

  搜尋資料的應用提高預測精度

  談及搜尋資料在經濟預測中的應用,必然離不開對谷歌趨勢(Google Trends)資料的介紹。谷歌趨勢資料是針對某個地區不同時間特定關鍵詞查詢數量生成的查詢指數,其構造過程大致如下:(1)計算查詢份額(Query Share),即某個地區某個時間段包含某個關鍵詞的查詢數量佔所有查詢的比重;(2)生成查詢指數(Query Index),將一段時間內查詢份額的最高值標準化為100,並將初始時點的查詢份額標準化為0。谷歌將搜尋查詢分成30個一級大類,並進一步細分為250個二級類別,這樣便可很容易獲得數百個谷歌趨勢查詢指數,查詢指數資料最早可追溯到2004年1月1日。

谷歌趨勢資料最早是由著名經濟學家哈爾·瓦里安(Hal Varian)引入到經濟預測中的。自2008年以來,瓦里安教授與其合作者釋出了一系列利用谷歌趨勢資料進行經濟預測的研究成果,預測內容涉及汽車及零部件銷售額、失業救濟申領人數、旅行目的地、消費者信心等。其基本思路是,在傳統的時間序列預測模型基礎上,加入谷歌趨勢生成的查詢指數,以提高預測精度。瓦里安教授的預測實踐表明,藉助谷歌趨勢,能夠有助於即時預測精度的提高。相關事例還表明,在出現拐點時期,加入谷歌趨勢指數作為變數,也能取得較好的預測效果。這恰恰是以計量經濟模型為基礎的常規經濟預測一直未解決的難題。

近兩年來,越來越多的歐美機構及學者將谷歌趨勢資料運用於不同型別經濟活動的預測中。例如,德國勞工研究所的學者利用谷歌趨勢資料對住房貸款違約比例進行即時預測,發現效果明顯優於基礎的自迴歸模型。愛爾蘭中央銀行的學者利用谷歌趨勢的相關概率指標,對其巨集觀經濟預測模型進行隨時調整,成功提高了即時預測精度。

除了谷歌趨勢資料外,其他搜尋引擎如必應、百度等,其搜尋資料也被用於經濟預測。百度公司推出了與谷歌趨勢類似的“百度指數”,相關資料指標也被用於經濟預測。2014年,中國科學院大學的幾位學者將“百度關鍵字指數”納入到他們開發的“中國股票市場預測模型”中,將預測平均誤差值從之前的3.8%降低到1.4%。

媒體資料的應用增強預測時效性

大資料處理和分析技術的快速發展,使得來自社交網站、線上新聞等渠道的文字資料也能夠被有效整理和量化,並用於經濟預測。

荷蘭統計局(Statistics Netherlands)的學者嘗試利用社交媒體資料對消費者信心指數進行預測。其大致思路是:(1)收集所有推特(Twitter)、臉書(Facebook)、領英(LinkedIn)等社交媒體資料,分別構造“基於社交媒體資料的消費者信心指數”;(2)分析官方統計調查得到的“消費者信心指數”與社交媒體消費者信心指數之間的相關性;(3)基於兩者之間的相關關係,以社交媒體“消費者信心指數”對官方統計“消費者信心指數”進行預測。根據分析,以臉書資料構造的指數與官方指數之間不僅高度相關且存在協整關係。以推特資料構造的指數與官方指數同樣存在相關關係。與官方指數相比,社交媒體指數最大的優勢在於及時性,能夠以兩週一次甚至一週一次的頻率構造併發布。

比利時安特衛普大學的學者通過文字挖掘(Text mining)技術對與巨集觀經濟復甦相關的“經濟政策不確定性指數”(Economic Policy Uncertainty Index,EPU)進行改造。文字挖掘的物件是六種來源的佛蘭芒語新聞報導。改造後的EPU可用於分析和預測巨集觀經濟復甦情況。

除了巨集觀經濟關聯指數的構造和分析外,媒體文字資料還被廣泛應用於對金融市場的相關變化進行預測。倫敦大學學院的學者對路透新聞檔案、經紀人報告、英格蘭銀行內部市場評論等文字進行挖掘,聚焦於那些有可能推動金融市場行為變化的敘述和情緒。該學者發現,當興奮情緒很高而焦慮情緒很少時,往往是金融危機發生的警示訊號。法蘭克福大學的學者以臉書國民幸福指數(Facebook’s Gross National Happiness,GNH)為基礎構造“投資信心指數”(Index of Investment Sentiment)。而GNH本身又是通過對臉書中的情感語彙進行文字分析而構造出來的。研究發現,利用GNH能預測美國股票市場每天回報和交易量的變化情況;一個標準差的GNH指數增加大致能夠帶來次日股票指數11.23個點的上漲。

其他可挖掘線上資料十分豐富

除了搜尋資料、網路媒體資料外,線上銷售及支付資料、衛星遙感資料、郵政快遞資料等也被應用於經濟預測中。

美國麻省理工學院的學者領導了一個名為“十億價格”(Billion Prices Project,BPP)的研究專案。該專案與網路零售商合作,每天下載成千上萬種線上零售商品的實時價格,生成每天的價格指數,可以實現以每天一次的頻率釋出價格變動和通貨膨脹資料。利用BPP線上價格指數,可以較為準確地判斷出未來一定時期特別是2—3個月時間內的通貨膨脹變化趨勢。最值得一提的是,BPP線上價格指數在預測通脹趨勢變化拐點方面特別有效。

加拿大麥吉爾大學的學者利用包括銀行卡在內的電子支付大資料,通過多個模型的不同組合對加拿大GDP進行即時預測;並以此項工作為基礎構建了一個全新的GDP月度資料庫,預測精度顯著提高。

萬國郵政聯盟(Universal Postal Union,UPU)的學者將國際郵政物流體系每天所產生的商品交換資料,與每日的國際匯率變動資料相結合,對國際間的電子商務套利行為進行預測分析。這一嘗試表明,利用國際郵政物流資料有助於提高預測能力。

在澳大利亞,其官方統計部門正在採取相關措施,以便將特定來源的大資料納入到常規官方統計體系中。在統計實踐中,澳大利亞統計局已經著手構建基於大資料的統計推斷框架。一個典型的例子就是,利用遙感資料對澳大利亞的農業資料進行統計和預測。

經濟預測中大資料應用的挑戰

近年來各國機構和學者的探索表明,利用各種不同來源的大資料能夠有效提高經濟預測的精度,在某些領域甚至能夠進行拐點預測。不過,在經濟預測實踐中如何更加有效地利用大資料仍然面臨諸多挑戰。

第一,大資料的可獲得性將直接限制大資料在經濟預測中的推廣應用。無論是政府部門資料還是私人公司資料,都不可能為經濟預測者隨意使用;對於私人公司資料來說,通常需要通過簽訂合作協議並嚴格執行保密條款才能獲取資料;至於政府部門公共資料,大多存在開放限制,往往需要通過機構內部人員才能獲取資料。

第二,來自搜尋查詢、社交媒體等不同渠道的非結構化原始資料既雜亂無章,又存在非常複雜的內在關聯,將其提煉並轉換為結構化的有用資訊需要有足夠的技巧,並且耗費大量人力、物力和財力。

第三,充裕的資料資訊還會帶來過度識別問題。以谷歌趨勢資料為例,谷歌每天產生的數十億個查詢記錄,即便利用谷歌趨勢進行分類仍有數百個指數;而每個指數即便從2004年1月開始,至今也最多不過一百多個序列。變數個數大於序列長度,必然導致過度識別問題。

第四,同任何傳統經濟預測一樣,大資料的應用也無法解決“盧卡斯批評”問題。雖然大資料提高了預測精度,但如果預測模型被用於決定採用何種干預政策,那麼最終的實際結果可能不會如模型所預測,因為政策的變化會影響到後續行為,而變數之間的關係恰恰是由相應資料所反映。

作者單位:中國社會科學院數量經濟與技術經濟研究所