B64Y9C

5月28日,當上證指數以重挫6.5%結束一天行情時,網路上到處瀰漫著恐慌與迷茫的情緒。就在投資者在堅守和撤離之間難做抉擇之時,有一種軟體已在後臺蒐集這些情緒資料,並進行量化分析,形成具體的投資意見。這就是美國華爾街投行、對衝基金、甚至紐約證券交易所都在使用的社交網路股市情緒量化分析法。

我國的股市情緒量化分析,也隨著股票雷達、投資脈搏以及百度股市通等應用的出現,進入了起步階段。在大市走向震盪加劇的當下,將感性的情緒量化為理性資料,不失為投資者縱觀全域性的參考指標。

2015年4月,總部位於波士頓的對衝基金Tashtego宣佈,將依靠資料演算法,利用社交網路分析客戶情緒和投資者行為進行交易。這則訊息,向大眾揭開了華爾街使用的情緒量化分析法的神祕面紗。

實際上,從2013年美國證監會(SEC)允許上市公司在社交網路披露公司資訊起,美國股市情緒分析應用如雨後春筍般冒出,華爾街投行、對衝基金等紛紛加入到這股網際網路金融浪潮中。

社交資料分析公司受追捧

2013年3月8日,紐約資料分析公司Dataminr(資料礦工)的客戶收到一條緊急推送,稱一艘皇家加勒比海遊輪抵達佛羅里達的埃弗格萊茲港,船上的105名乘客和3名船員全部感染諾如病毒(常見伴隨症狀是食物中毒和腹瀉)。這則經確認的新聞剛公佈,皇家加勒比海遊輪公司的股價旋即急跌2.9%。Dataminr的客戶在新聞公佈前48分鐘即得知此事件。

引起Dataminr員工警覺的,是南佛羅里達新聞電臺WSVN於當天下午1點發布的一條推文。“我們心中警鈴一震”,Dataminr公司創始人彼得·貝利說,後臺語義演算法系統發現這條推文與曾經產生過類似價值的資訊行文類同。當天下午1點02分,即該推文釋出兩分鐘後,Dataminr公司的相關客戶就收到一封警示郵件。

上述Dataminr提供的服務,不過是美國近幾年社交網路股市情緒分析浪潮中的一例。

諸如Social Market Analytics(社交市場分析公司SMA)和Hedge chatter等公司都以Twitter、Facebook等社交網路大資料為基礎,收集並分析網路上對上市公司或某一事件的看法評論,並作出與股價有關的預測分析。

全球最大社交資料提供商GNIP2014年釋出白皮書指出,社交網路股市情緒分析最早始於2010年,用途還只限於企業分析客戶感受。2013年,美國證監會(SEC)允許上市公司在社交網路披露公司資訊後,包括湯森·路透、彭博社在內的全球著名資料提供商也開始提供社交網路資料分析服務。

面向機構和個人的相關應用如雨後春筍般冒出。Dataminr創始人彼得·貝利透露,他們的客戶就包括華爾街前5大超級投資銀行中的3家,和一家估值150億美元的股權避險基金公司。

SMA與全球領先的資料分析商Markit合作,向超3000家機構投資者提供資訊,裡面就包括中央銀行、華爾街投行、對衝基金、政府機構和保險公司等。值得注意的是,SMA甚至打入了交易所內部,向美國紐約交易所使用者訂閱欄目提供實時資料分析結果。

理論基礎和資料池更成熟

對市場情緒的分析早有理論基礎。2002年,心理學家丹尼爾·卡納曼和經濟學家弗農·史密斯因對結合了心理學和經濟分析的行為經濟學的研究,分享了這一年的諾貝爾經濟學獎,讓這一細分學科在沉寂了幾十年後真正走進了公眾視野。

2010年,美國印第安納大學和英國曼徹斯特大學的三位學者合作發表了一篇題為《Twitter情緒預測股市》的論文,指出基於大量推文而分析出的公眾情緒與道瓊斯工業指數相關聯,甚至具有預測性。

他們選取2008年2月28日至12月19日近1000萬條推文作為樣本,採用兩種情緒追蹤工具將其分類。一種是開源工具OpinionFinder,將推文二分為積極和消極情緒;另一種是以臨床醫學使用的情緒狀態量表(POMS)基礎而新開發的情緒測試工具GPOMS,能將公眾的情緒分為冷靜、警惕、確信、活力、友善和幸福這六個類別。

研究者發現,將“冷靜”情緒指數後移3天,竟然與道瓊斯工業平均指數驚人一致,也就是說,Twitter反映出的情緒能在一定程度上預測3~4天后的股市變化。另外,研究者還測試了一個稱為SOFNN的股市預測模型。當僅輸入股市資料時,模型已經有73.3%的準確率;加入“冷靜”的情感資訊後,準確率更升至86.7%。

分析軟體如何在全球每天數百億推文中篩選有效資訊,成為量化市場情緒的關鍵,專業的演算法成為篩選有效資訊的利器。

對相對成熟的美國公司來說,其能利用的資料池非常廣泛。《每日經濟新聞》記者注意到,Dataminr、SMA和Hedge chatter三家業界主力的資訊來源分為兩種。

一種是依託全球最大專業資料提供公司英國DataSift(資料雨燕)和美國GNIP。DataSift資料池共有超過21家網站,擁有強大的資訊過濾演算法,每秒能挖掘12萬條推文,資料池除了主要的Twitter、Facebook、Wordpress和Tumblr外,還有圖片社交網站Instagram、視訊分享網站Youtube和Dailymotion等,其中Datasift還取得了新浪微博、騰訊微博的資源授權。

二是公司用自己的語義分析法對資料進行細分。例如SMA鎖定超過30萬的專業投資者,這部分人密切關注資本市場動向,有規定地釋出股市推文。因此成為SMA資料庫的基礎來源,並每月自動篩選替換。

via:每日經濟新聞