2015年,全球範圍內對沖基金經歷了2008年以來的第二次業績寒冬。根據對沖基金研究機構HFR(Hedge Fund Research Inc.)公佈的資料顯示,2015年四季度全球新成立對沖基金183家,較第三季度的269家下降32%,是2009年以來新增數量最少的季度。2015年全年累計新成立對沖基金968家,較上一年度下降7%。此外,諸多對沖基金在慘淡的業績面前紛紛清盤。資料顯示,2015年累計979家對沖基金清盤,較2014年864家的資料上漲13.3%,是自2009年1023家對沖基金清盤以來的又一波高峰。這波浪潮中,諸多國際大型對沖基金也未能倖免:全球20大對沖基金之一貝萊德宣佈關閉旗下一個10億美元規模的宏觀對沖基金;文藝復興科技投資公司宣佈清盤旗下一隻量化對沖策略基金 ——復興機構期貨基金(RIFF)。
然而,對沖基金數量的減少並沒有影響其總體規模衝上新高。根據HFR統計資料顯示,截至2015年底,全球對沖基金管理資產規模達2.9萬億美元,較2014年增長約1千億美元。
機構數量的減少和資產管理規模的增長再次印證了全球對沖基金行業“強者恆強”的現狀。雖然近年投資者逐漸增加了對中小型對沖基金的投入,但行業集中度居高不下的局面並未得到改善。2015年研究機構Preqin在其釋出的報告中將7617家對沖基金公司中管理資產規模在10億美元以上的統一劃入“10億美元俱樂部”。報告顯示,儘管“10億美元俱樂部”包含570只對衝基金,卻管理了對沖基金中92%的資產規模。而其餘大部分的對沖基金合計管理規模只佔8%。這意味著對沖基金行業中大多數資金集中在少數公司手中。
從投資策略來看,複合策略、股票多空策略、宏觀策略是2015年業績表現最好的三個策略,全年累計收益分別為3.62%、3.57%、2.27%。2014年表現“一枝獨秀”的CTA受累於大宗商品的暴跌,2015年累計收益僅1.28%,遠低於去年同期的16.42%。可轉換套利和股票市場中性策略收益高於2014年,分別取得全年累計收益1.6%和0.09%,其餘子策略的收益表現均低於2014年。
回顧2015年,造成全球對沖基金業績欠佳的主要原因包括以下幾點,第一,市場因素:黃金、石油等大宗商品的暴跌拖累投資大宗商品的對沖基金和投資能源行業的對沖基金;希臘債務危機陰雲不散,投資歐洲市場的對沖基金業績受到波及;中國股災影響包括歐美股市、新興市場股市等在內的全球股市。第二,客戶因素:HFR主席Kenneth Heinz指出,隨著客戶風險厭惡傾向不斷加強,客戶對其資產波動性的容忍程度也相應下降,業績表現不佳的對沖基金面臨著強大的客戶贖回壓力。
基於資料探勘的量化投資技術
作為對沖基金的重要手段,量化投資技術一直被大量應用並不斷深化。1971年,電子工程師約翰·麥奎恩利用美國富國銀行的信託投資平臺建立起全球第一個定量投資系統。隨後,量化投資界的傳奇人物詹姆斯·西蒙斯創立了文藝復興科技公司,並運用量化模型在公司成立後的20多年中為基金賺取了平均每年35.6%的收益率。然而,隨著電腦科學的進步和大資料時代的到來,全球資料量呈現指數級增長,傳統的公司財務資料和市場行情資料已難以全面描繪市場狀況;同時,資料庫儲存的數字、符號資訊等結構化資料形式逐漸向文字、影像、音訊、影片等非結構化資料形式轉變。因此,市場亟需更先進的模型和演算法來滿足對更大量級、更多型別的資料進行處理,基於大資料量化策略的研究已然成為量化投資新的研究方向和熱門研究領域。
文字挖掘在量化投資中的應用
主題投資作為股票市場上一種重要的投資策略,反映了投資者對市場上發生的熱點事件的解讀,也反映了不同市場參與者的心理博弈過程。傳統的量化分析對主題的把握主要依賴個股的財務資料(如EPS、PE、收盤價、開盤價、成交量等)和行業資料(如行業指數漲跌幅等)。然而,這些結構化資料中所隱含的投資資訊大部分已被挖掘,投資者亟需從更廣闊的非結構化資料中探求市場規律。
文字挖掘是指從文字資料中抽取有價值的資訊和知識的計算機處理技術,是資料探勘的一個分支。將文字挖掘應用於量化投資的核心邏輯在於:第一,文字資料研究與相對成熟的數值型資料研究相比,更容易在新資料來源中獲得超額收益;第二,財經相關的網路文字資訊某種程度上反映了投資者的情緒和投資意向;第三,爆發式增長的網路文字資料在數量和時間維度上足夠構建較為成熟的量化模型;第四,一個主題的異動往往會帶來關於該主題大量持續的報導,甚至在該主題還未在市場上有所表現的時候,就已經有大量的新聞報導產生,從而使與該熱點相關的新聞數量在某一時間段達到一個突發的高峰。透過對相關文字資訊進行分析挖掘,可以有效預測市場熱點和動向,發掘主題投資機會。
網際網路財經選股策略是基於文字挖掘技術的量化選股方式之一。透過爬取主流財經媒體報導文章的文字資訊,利用文字挖掘技術對熱點事件進行深度挖掘,進而完成對投資主題的預測。網際網路財經選股策略總體框架分為“資料獲取”、“資料處理”以及“策略構建”三部分:
資料獲取。引入“網路爬蟲技術”,首先分析待批次爬取的主流財經媒體網頁結構,主要關注網頁中需要特定爬取的相關結構和內容;其次,發現財經媒體網站上待爬取資訊的網頁URL相關規律,透過網路爬蟲程式遍歷並提取所有待爬取財經網(部落格,微博)頁中的薦股欄目資訊,獲得各網站薦股資料。在大資料時代,單機爬取的速度往往難以滿足大規模資料爬取需求,可以考慮引入Hadoop平臺技術,實現分散式儲存與並行資訊爬取策略。
資料處理。包括資料清洗和資料探勘兩部分。資料清洗是篩選出所有網頁訪問正常且內容完整有效的資料資訊;資料探勘是指標對處理後的文字資訊,透過分析各網站的文字結構,並利用文字分詞、文字分類、文字聚類等技術進行主題關鍵詞的挖掘和分析。
策略構建。分析資料探勘得到的規律,並制定相應的交易策略。單個財經頻道選股策略為:在每個交易日,根據文字挖掘的薦股資訊,在推薦後的第一個交易日以開盤價買進該個股;如果該股停牌,則不買入;持有期到期後以收盤價賣出該個股,如果個股在持有期末停牌則延遲賣出,直至可以賣出。多財經頻道智慧選股策略是在單財經頻道的基礎上擴充了資料範圍,考慮了各個網站在過去一段時間內單個策略下的表現,優先選取過去一段時間內收益率超過某設定標準(如對比上證指數)的前若干個網站,結合當前交易日推薦個股構成超配組合。
神經網路演算法在量化投資中的應用
神經網路演算法是資料探勘中的重要模型,它的產生得益於生理學和醫學對人腦的探索成果。科學證實:腦神經系統具有豐富的層次結構,“神經-中樞-大腦”的工作過程是一個不斷迭代、不斷抽象的過程。人工神經網路正是一種應用類似於大腦神經突觸連線結構進行資訊處理的資料探勘模型。
神經網路由大量的節點(或稱神經元)相互連線構成,每個節點代表一種特定輸出函式,也稱為激勵函式,每兩個節點間的連線代表一個對於透過該連線訊號的加權值,即權重。神經網路的輸出則根據網路的連線方式、權重值和激勵函式的不同而有所差異。常見的神經網路模型通常將節點分成三個層次:輸入層,輸出層和隱含層。輸入層即給定的模型輸入,輸出層即神經網路預測的結果,隱含層是神經網路內部自動運算過程。
將神經網路模型應用於量化投資分析的基本假設在於:市場存在著人類無法直接判斷但是計算機可以挖掘產生的規律和邏輯。與基於傳統統計學假設檢驗的方法論不同,神經網路作為一種資料探勘模型技術,並不需要投資者事先對邏輯進行完整的預判,而是依賴於計算機透過輸入引數對輸出結果進行學習。因此可以有機會打破人類固有的思維侷限,從更高量級的資料中發掘隱藏規律。結合西蒙斯的“壁虎式”投資理論可知,投資時在短線內是可以進行方向性預測並捕捉到短期套利機會的。因此,基於神經網路的交易策略正是藉助於該原理對大量的歷史交易資料進行學習,建立預測模型,從而在實際交易中捕捉到短期的交易機會。
以基於神經網路的高頻股價預測模型為例,其核心邏輯在於:市場上買賣雙方的交易行為決定了股票價格的形成和波動,透過基於神經網路的資料預測模型對高頻市場行情資料進行分析和挖掘,對短期內股指期貨的漲跌進行預測,然後根據預測結果確定股指期貨的買賣訊號。預測模型的輸入是短期內的股票價格資料、價格的變化範圍資訊、買賣盤價格和委賣委買量資料等,預測模型的輸出是未來短期內的漲跌方向。從實證結果來看,該模型將大量期貨歷史交易資料作為學習集,透過大量訓練,對一秒鐘高頻下的股指期貨漲跌進行預測,並能在預測模型樣本外的測試資料樣本中達到73%的準確率。據廣發證券(000776,股吧)應用該模型後披露的資料顯示,自2013年初至2014年7月,累計收益率達到99.6%,年化收益率為77.6%,最大回撤為-5.86%。
值得一提的是,近年“深度學習”在人工智慧上所取得的技術突破迅速引起金融行業的極大關注。目前已經有行業研究者開始嘗試將深度學習應用於量化投資以獲取超越傳統神經網路量化模型的收益。深度學習並不特指某一個演算法,而是Sparse Coding、RBM、深信度網路等技術方法的總稱。與傳統神經網路模型2~3層隱含層不同,深度學習模型的隱含層數可達8~9層,甚至更高。因此當該思想被提出之初,海量的訓練資料和很高的計算複雜度超出了當時硬體的承受能力,但由於近年計算機硬體效能的提升,深度學習演算法在準確率方面的優勢迅速凸顯,這也使得深度學習在量化投資領域的應用前景越來越廣闊。
對沖基金資產配置建議
2015年,全球對沖基金行業陷入業績低谷,儘管管理資產規模仍呈上升趨勢,但行業整體業績慘淡,諸多對沖基金面臨清盤。除了2015年大宗商品表現不佳、希臘債務危機反覆、中國股災波及全球等市場因素外,投資者風險厭惡傾向上升,對沖基金還面臨著巨大的贖回壓力。這些都給對沖基金的發展提出了嚴峻的挑戰。
然而,隨著量化技術的不斷發展,特別是大資料時代資料探勘技術的迅猛發展,使得對沖基金用以研究、跟蹤市場的工具愈發強大。資料探勘攜手對沖基金,將在大資料時代為量化投資帶來不斷創新能力。
對銀行投資顧問而言,建議在深化對市場把握的過程中,更多關注基金模型的底層基本原理,特別是資料探勘的基本邏輯,更好地為客戶提供專業意見。從銀行資產配置工作實際來看,目前市場上已經出現了多支公募基金與網際網路公司合作的大資料基金產品,如:廣發基金與百度合作的“中證百度百發策略100指數型基金”、南方基金與新浪合作的“大資料100指數型基金”等。該類產品型別涵蓋了指數型、股票型和混合型基金以及集合資產管理計劃。銀行應進一步拓寬視野,加強對國內各大基金與網際網路公司合作推出的“大資料基金產品”予以關注,並考慮引進其中優秀產品,以期為客戶提供更為優質的資產配置服務。
作者:王彥博、楊璇、劉曦子
作者單位:中國民生銀行,對外經貿大學資訊學院