過擬合與欠擬合-股票投資中的機器學習

宽邦科技發表於2019-01-30

本文來自Euclidean Technologies於2018年發表的一封公開信,主要介紹了機器學習在金融領域中的應用和前景。可供對機器學習感興趣的朋友學習,對量化投資人工智慧的結合有個初步的瞭解及認識。

過擬合與欠擬合-股票投資中的機器學習

截至今年9月,在標準普爾500指數成份股包括股息在內的總回報率為10.6%的情況下,Euclidean Fund I費用和支出淨額年漲幅為9.8%。這些回報來自於一個對價值投資者不利的環境。今年前9個月,昂貴成長型股票的總體主導地位繼續保持,而且,無利可圖的公司表現優於市場。

為了對我們的結果有所瞭解並明確我們的定位,我們來考慮Euclidean的投資組合中的這兩種觀點。它們不僅表明了我們為什麼對歐幾里得帶來未來回報的潛力持樂觀態度,也表明了為什麼市場對高成本、無利潤公司的青睞會對我們的戰略產生不利。我們相信,當盈利公司受到青睞、估值倍數受到壓縮時,我們的投資風格將會與眾不同——並且,這種情形最終很可能會出現。

與此同時,我們會一直通過結合我們的經驗、邏輯機器學習的使用,繼續完善我們的投資方式。我們的目標是完善歐幾里得(Euclidean)評估某個公司的財務狀況如何演變的流程,從而確定哪些公司是被投資者(以及當前市場價值)嚴重低估了的。

關於這些嘗試,我們認為現在正是將我們對發展投資模型的觀點分享出來的時候,比如模型過擬合和金融市場的非平穩性質。當你在研究定量投資方法時,這些主題極為重要。希望這封信能讓你們對Euclidean對這些主題的觀點有所瞭解。

機器學習和股票投資

金融市場存在著大量的隨機性、噪聲和模糊性,這是因為人類在制定市場價格的過程中,帶著情感和奇想,並在無意中被捲入其中。這導致一些人得出這樣的結論:複雜的機器學習模型,如神經網路和決策樹的集合,註定會被所有的噪音所誤導。令人擔心的結果是,這些模型可能會與資料過度匹配,發現本不存在的關係,而不是持久穩固的原則。

這種觀點源於另一種現象,那就是在深度(機器)學習領域中,一些最大的成就與遊戲有關,例如電子遊戲、國際象棋和圍棋。儘管這些遊戲很複雜,但它們與金融市場不同——它們有明確的規則。

在很多方面,我們認為這種對機器學習的擔憂是錯誤的。畢竟,機器學習已經被證實即使在非常嘈雜的領域也是成功的,比如語音識別計算機視覺。此外,正如我們在這封信中所描述的,機器學習提供了一個工具庫,專門設計用來在嘈雜的資料中梳理出訊號,並防止過擬合

但在我們開始討論之前,有必要說明一下,在Euclidean對機器學習在長期投資中的應用進行了長達10年的研究之後,我們已經得到的一些結論。在我們的研究中,我們就上述觀點進行了三次高水平的觀察:

當我們試圖使用現成的深度學習技術從過去的基礎資料和動量中預測未來的收益時,他們的表現並不比一個簡單的線性模型好。

當我們試圖從過去的基礎和勢頭中預測未來的基本原理,並再次使用深度學習技術時,我們線上性模型上取得了成功(儘管不太成功)。

當我們把長期投資當成一個分類問題來表述時,我們已經在決策樹的總效果中看到了更好的結果。也就是說,我們不是試圖從過去的資料預測未來的回報,而是通過預測一項投資的結果是好是壞,我們發現這種方法效果更好。

這可能就是故事的結局了。也許我們已經把機器學習應用到股票投資中去了。然而,對於那些認為機器學習不太可能對長期股票投資和定量金融產生革命性影響的人來說,近期金融領域的事件與發展給他們提供了一個警示。

請考慮這三個噪聲非常大且具有在計算方面具有挑戰性的問題:計算機視覺、語言翻譯和語音識別。就在不久以前,這些領域中的最佳技術還不是基於機器學習的,而且它們的效能一般都很糟糕(通常比孩子能做的還要差)。例如,您曾經可能理所應當地認為未來的語音識別將來自於傳統的方法,如隱馬爾可夫模型。但後來發生了一件不尋常的事,在所有這三個領域,儘管不一定同時或出於同樣的原因,深度神經網路的效能都超過了傳統的方法,常常超過這些領域專家的人類效能。

在這封信中,我們將深入研究了上面介紹的幾點,以解釋為什麼我們繼續推進我們的研究,尋找更有效的方法來評估某個公司的長期投資狀況。首先,我們討論當使用機器學習來構建模型時,實際上存在一個譜,在這個譜的一端模型是不適合的,另一端模型是過度適合的。我們的目標是在中間找到一個合適的點既不是太合適也不是太不合適在這個點上,模型成功地捕獲資料中的持久關係,並實現良好的泛化。

然後我們討論在一個規則不固定的世界中,如何看待機器學習的使用。畢竟,在一個規則極端不平穩的環境中,在一個時期得到的任何資料在下一個時期都可能毫無價值。但是,這種侷限性不僅存在於機器學習中,還存在於人類和傳統的統計方法中。然而,正如我們之前所說的,有一些方法可以幫助我們構建有助於緩解這個問題的投資目標,也有一些工具可以幫助我們在資料輕微非平穩或資料隨著時間緩慢變化時提高模型效能。

過擬合(和欠擬合)模型

機器學習有很多種型別,但最常見的是一種被稱為監督學習的形式。監督學習背後的思想是模型負責將輸入對映到輸出。在影象識別中,輸入可以是影象(例如,表示場景中畫素的顏色和強度的數字網格),輸出可以是影象的描述(例如,椅子上的貓)。在語言翻譯中,輸入可能是英語句子,輸出可能是法語句子。對歐幾里得來說,輸入可能是某個時間點上關於一家公司的各種資料,輸出可能是“1”,也可能是“0”,表明該公司股票在隨後的一年時間裡是否優於市場總體水平。

模型將輸入對映到輸出的方式主要是可調引數權重。就像在鋼琴上,如果你改變琴絃的張力(調音),同樣的一組按鍵(輸入)會產生一組不同的聲音(輸出)。在機器學習模型中,權值通常用數字表示。可能只有幾個這樣的權重,比如在一個簡單的幾個變數的線性模型中,也有可能有數千萬個這樣的權重,比如在最複雜的深層神經網路中。

機器學習模型中的權重是在所謂的訓練階段確定的。在這個階段,機器將收集輸入和目標輸出的示例。例如,如果你想訓練一個把英語句子翻譯成法語句子的模型,你需要收集很多英語句子的例子和相應的法語翻譯。

在訓練階段,學習演算法試圖找出模型輸出和收集到的目標輸出之間產生最小差異或誤差的權重。在某種程度上,所收集的資料代表了真正的輸入和輸出之間的關係,然後最小化表現良好的訓練資料的總誤差,產生在其他相同的資料分佈但不包含在樣本(即樣本外)的資料的一個模型。

但這還不是全部。我們還必須面對過擬合過擬合的挑戰。用一個例子來說明是很有用的。在圖1中,您可以看到一些觀察到的資料,其中x是輸入,y是輸出。此外,我們已經將直線擬合到觀察到的資料中,使線性模型的輸出與實際觀測到的y之間的差最小。

Figure1

顯然,對於線性模型無法捕捉到的資料,存在一些曲率(或非線性),因此人們很自然地要問,一個更具表現力的模型(曲率更大的模型)是否能更好地擬合資料。

因此,我們可以嘗試一些更有表現力的東西,而不是簡單的線性模型,如以下形式的三次多項式:

過擬合與欠擬合-股票投資中的機器學習

最佳擬合的三次多項式如圖2所示。這顯然看起來更好,且從數量上來說,三次多項式擬合的目標輸出和實際輸出之間的平均絕對差是0.17,而線性模型是0.51。

Figure2

然而,如果學習的目標是最小化實際輸出和目標輸出之間的差異,那麼為什麼不嘗試做得更好呢?我們可能會認為一個模型適合所有100個樣本資料點,誤差為零是最好的。這種擬合可以用一個99次多項式實現,如圖3所示。

Figure3

但這真的是最合適的嗎?直覺上,大多數人會認為他似乎不正確。雖然第一個示例似乎沒有足夠緊密地跟蹤資料分佈,但是這個示例似乎過於緊密地跟蹤資料分佈。但是我們能量化這種直覺嗎?

建立模型的目的是使用它對新資料進行未來的預測y當我們遇到一個新的x的值。所以為此,我們檢查當我們收集更多的資料(比如另一個100左右的輸入-輸出例子)和評估我們的三個模型基於這個新的資料。在下表中,我們可以看到,與樣本內資料完全吻合的模型(99次多項式)的樣本外誤差比3次多項式模型的樣本外誤差要小。

過擬合與欠擬合-股票投資中的機器學習

這個結果引出了下面的問題:1到99階多項式的樣本外誤差是多少?結果如下圖所示。

過擬合與欠擬合-股票投資中的機器學習

從圖中可以看出,最小樣本外誤差是通過三次多項式實現的。這是達到最佳泛化的點。但是在機器學習中我們如何找到這一點呢?在下一節中,我們將介紹機器學習為解決這個問題而帶來的一些大型工具。

機器學習模型中實現良好的泛化

對於大多數監督學習專案,確定模型的過程可以分為三種主要策略,以實現較強的泛化。我們將從最後使用的策略開始——樣本外測試。

樣本外測試是我們基於從未公開過的資料對模型進行測試的過程。該測試的典型過程是留出隨機選擇的資料的10%到30%,在構建模型並準備部署之前不動它。測試集上的效能被認為是模型泛化效能的估計。

現在,要小心。假設我們告訴您,如果您的樣例外測試不成功,您就無法返回並使用不同的方法再次嘗試。這是因為:如果您迭代地構建模型,基於樣本外資料測試它們,並通過這些測試的成功(或失敗)來指導您的過程,那麼您實際上是在使用測試資料來訓練您的模型。

這似乎相當傷腦筋!直到最後一步,您才知道是否有一個成功的模型,如果最後一步導致測試失敗,那麼您就陷入了困境。

值得慶幸的是,有一些技術可以在訓練過程之前和期間防止過度擬合,因此在進行最後的樣本外測試時,您已經很好地瞭解了模型將如何執行。

正則化

Occam剃刀是14世紀聖方濟會修士William of Ockham提出的哲學原理。它從拉丁語翻譯過來是“沒有必要就不能假定多元化”,這通常被解釋為註解、模型或理論不應該比必要更復雜。然而,它經常被誤解為:最簡單的模型就是最好的模型。

這種區別很重要,因為在實踐中,我們應該不斷增加複雜性,直到複雜性不再改善模型的效能。從這個意義上說,上面圖4總結的實驗(它將模型複雜性與樣本外效能聯絡起來)就是在做這個——找到增加模型引數的數量沒有價值的點。這種控制模型複雜性以避免過度擬合併實現良好泛化的過程稱為“正則化”。

機器學習中有無數種形式的正則化正則化的程度(您對模型容量的控制程度)稱為“超引數”,而找到適當的正則化程度的過程稱為“超引數搜尋”。進行超引數搜尋的一種方法是從訓練資料中隨機選擇一個驗證資料集。

然後,有了訓練資料,您就可以用正則化水平的增加(減少)來擬合許多模型。然後在驗證資料上測試每個模型的效能,如圖4所示,選擇將複雜性最低的模型與最好的驗證效能結合在一起。然後在測試集中對該模型進行測試,以獲得其樣本外效能的估計值。

有很多方法可以改進這種超引數搜尋的基本形式。例如,交叉驗證[8]允許使用更多的資料進行培訓,使用更少的資料進行測試,同時仍然能夠獲得良好的泛化效能評估。此外,某些技術[9]更好地處理時間序列資料,這是大多數財務資料的形式。

在某些領域,只有通過設計全新的模型體系結構,才能在泛化效能上取得重大突破。計算機視覺[11]的卷積神經網路和時間序列的長短期記憶網路12就是很好的例子。這些神經網路體系結構中的每一個都通過使用一種正則化的形式來獲得良好的泛化效能,這種正則化是它們所解決的問題所特有的。

在我們自己的研究中,我們使用了一種叫做多工學習(multi-task learning)的正則化方法,研究了使用深度神經網路來預測過去基本面因素對未來收益的影響。也就是說,我們不要求我們的模型僅僅預測未來一年的收益,我們要求它預測未來一年的所有損益表和資產負債表專案。這在訓練過程中為模型提供了更多的訊號,因此可以幫助避免過擬合

因此,綜上所述,機器學習中實現良好泛化(不欠擬合過擬合)的關鍵組成部分是超引數搜尋、正則化和樣本外檢驗。這些技術支援在各種嘈雜領域中開發非常強大的模型。[13]

金融市場非平穩帶來的挑戰

機器學習和一般統計方法應用於投資領域的一個常見的批判言論:市場是非平穩的。也就是說,與國際象棋等遊戲不同,投資規則不是固定的,導致良好回報的因素會隨著時間的推移而變化。但這種批評並不僅限於機器學習的應用。相反,它是對推理應用的批評。畢竟,無論你是人類還是機器,當你在一個以極端非平穩規則為特徵的環境中執行時,在一個時間段學到的任何教訓在下一個時間段可能都沒有什麼價值。

80年前,價值投資之父本傑明•格雷厄姆(Benjamin Graham)做了一個類比,為我們提供了有關歐氏法則影響的觀點。也就是說,在短期內,市場表現得像一臺投票機,但從長期來看,市場更像是一臺稱重機。格雷厄姆的觀點是,恐懼、貪婪和其他情緒(投票機器)會導致短期市場波動,這可能很難理解。這些波動有時會導致一家公司的價格與該公司為其所有者創造現金的能力所隱含的價值產生顯著差異。然而,在很長一段時間後,格雷厄姆觀察到,隨著企業的市場價值與經濟表現趨同,稱重機最終會發揮作用。

因此,當你的投資目標變得更長遠時,你會感覺自己似乎正在處理一個越來越穩定的問題。短期內,價格可以做任何事情。投資潮流來來去去,投資者的注意力常常轉向與公司未來現金流無關的外部發展。然而,最終,公司市值和現金流之間的關係似乎決定了一切。具體地說,當股價相對於公司現金流變得非常高時,它們隨後表現不佳。而且,當股價相對於企業現金流的跌幅非常低時,它們往往會帶來高於平均水平的回報。[14]

我們已經通過對較早之前的模型進行培訓,然後在更近期的樣本外示例中成功地測試它們,從而滿意地證明了這一點。因此,我們相信,從長期來看,股票投資是平穩的,這足以讓機器學習產生良好的結果。

然而,“足夠平穩”並不意味著完全平穩。隨著時間的推移,稅收和監管制度發生了變化,會計規則發生了變化,交易成本大幅下降,代表一個國家股市特徵的公司型別和保證金狀況也發生了變化,等等。因此,隨著時間的推移,可能會出現一些重要的教訓,這也有助於評估單個公司的基本特徵和投資潛力。

幸運的是,當資料分佈隨著時間緩慢變化(弱非平穩)時,機器學習中可以使用一些工具。例如,在我們從過去的基本面預測未來基本面的研究中,我們測試的一種方法是在30年的跟蹤資料變動視窗上迭代地構建模型。每年Y,我們建立了一個模型基於資料從Y - 30 - Y - 1,這中使用的模型是建立在2000年的資料,從1969年到1999年和2018年所使用的模型是建立在資料從

1987年到2017年的時期。

通過使用這樣的實踐,我們可以隨著時間的推移發展我們的模型,使其偏向於更近期的資料,並考慮到長期股權投資的一些非平穩方面。

總結

從資料來看,似乎遵循投資廉價公司的簡單規則對投資者會有好處。這促使我們創立了歐幾里得,並通過更深入地研究公司的基本面來尋求做得更好的機會。我們想要一種基於歷史教訓的過程驅動的投資方法。我們認為你們中的一些人也想要同樣的東西。

我們最初利用機器學習工具構建了我們的方法,以消化多年前上市公司的財務報表和投資結果。這為我們根據過去類似機會的實際表現來評估今天的股票投資期權提供了基礎。但旅程才剛剛開始。

自從我們公司成立以來,我們的工作工具變得越來越複雜。與此同時,可供分析的資料越來越多,而我們成功應用商業投資戰略所需的經驗也在不斷加深。因此,我們的運作方式在不斷髮展,因為我們試圖利用我們相信可以改善我們的投資過程的新見解。

我們希望像這樣的信件能讓您與我們的努力保持聯絡,成為您的血汗錢的好管家。我們希望你是一個知情的歐幾里得投資者,我們可以討論這裡分享的內容,我們的投資組合中的個人立場,或任何問題,你可能有。請隨時打電話給我們,我們一直很高興收到你的來信

最好的問候,

John & Mike

本協議所表達的意見為歐幾里得技術管理有限責任公司(以下簡稱“歐幾里得”)的意見,如有變更,恕不另行通知。本資料並非財務建議或買賣任何產品的要約。歐幾里得保留根據不斷變化的市場動態或客戶需求修改其現有投資策略和技術的權利。

歐幾里得技術管理有限責任公司是根據1940年修訂的《投資顧問法案》註冊的獨立投資顧問公司。註冊並不意味著一定程度的技能或培訓。更多關於歐幾里得的資訊,包括我們的投資策略,費用和目標,可以在我們的第2部分的廣告中找到。

原文連結:《過擬合欠擬合-股票投資中的機器學習

本文由BigQuant人工智慧量化投資平臺原創推出,版權歸BigQuant所有,轉載請註明出處。 

相關文章