相信很多人都想過讓人工智慧來幫你賺錢,但到底該如何做呢?瑞士日內瓦的一位金融資料顧問 Gaëtan Rickter 近日發表文章介紹了他利用 Python 和機器學習來幫助炒股的經驗,其最終成果的收益率跑贏了長期處於牛市的標準普爾 500 指數。雖然這篇文章並沒有將他的方法完全徹底公開,但已公開的內容或許能給我們帶來如何用人工智慧炒股的啟迪。機器之心對本文進行了編譯介紹,程式碼詳情請訪問原文。
我終於跑贏了標準普爾 500 指數 10 個百分點!聽起來可能不是很多,但是當我們處理的是大量流動性很高的資本時,對沖基金的利潤就相當可觀。更激進的做法還能得到更高的回報。
這一切都始於我閱讀了 Gur Huberman 的一篇題為《Contagious Speculation and a Cure for Cancer: A Non-Event that Made Stock Prices Soar》的論文。該研究描述了一件發生在 1998 年的涉及到一家上市公司 EntreMed(當時股票程式碼是 ENMD)的事件:
「星期天《紐約時報》上發表的一篇關於癌症治療新藥開發潛力的文章導致 EntreMed 的股價從週五收盤時的 12.063 飆升至 85,在週一收盤時接近 52。在接下來的三週,它的收盤價都在 30 以上。這股投資熱情也讓其它生物科技股得到了溢價。但是,這個癌症研究方面的可能突破在至少五個月前就已經被 Nature 期刊和各種流行的報紙報導過了,其中甚至包括《泰晤士報》!因此,僅僅是熱情的公眾關注就能引發股價的持續上漲,即便實際上並沒有出現真正的新資訊。」
在研究者給出的許多有見地的觀察中,其中有一個總結很突出:
「(股價)運動可能會集中於有一些共同之處的股票上,但這些共同之處不一定要是經濟基礎。」
我就想,能不能基於通常所用的指標之外的其它指標來劃分股票。我開始在資料庫裡面挖掘,幾周之後我發現了一個,其包含了一個分數,描述了股票和元素週期表中的元素之間的「已知和隱藏關係」的強度。
我有計算基因組學的背景,這讓我想起了基因和它們的細胞訊號網路之間的關係是如何地不為人所知。但是,當我們分析資料時,我們又會開始看到我們之前可能無法預測的新關係和相關性。
選擇出的涉及細胞可塑性、生長和分化的訊號通路的基因的表達模式
和基因一樣,股票也會受到一個巨型網路的影響,其中各個因素之間都有或強或弱的隱藏關係。其中一些影響和關係是可以預測的。
我的一個目標是建立長的和短的股票聚類,我稱之為「籃子聚類(basket clusters)」,我可以將其用於對沖或單純地從中獲利。這需要使用一個無監督機器學習方法來建立股票的聚類,從而使這些聚類之間有或強或弱的關係。這些聚類將會翻倍作為我的公司可以交易的股票的「籃子(basket)」。
首先我下載了一個資料集:http://54.174.116.134/recommend/datasets/supercolumns-elements-08.html,這個資料集基於元素週期表中的元素和上市公司之間的關係。
然後我使用了 Python 和一些常用的機器學習工具——scikit-learn、numpy、pandas、matplotlib 和 seaborn,我開始瞭解我正在處理的資料集的分佈形狀。為此我參考了一個題為《Principal Component Analysis with KMeans visuals》的 Kaggle Kernel:https://www.kaggle.com/arthurtok/principal-component-analysis-with-kmeans-visuals
import numpy as np
import pandas as pd
from sklearn.decomposition
import PCA
from sklearn.cluster
import KMeans
import matplotlib.pyplot as plt
import seaborn as sb
np.seterr(divide='ignore', invalid='ignore')
# Quick way to test just a few column features
# stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv', usecols=range(1,16))
stocks = pd.read_csv('supercolumns-elements-nasdaq-nyse-otcbb-general-UPDATE-2017-03-01.csv')
print(stocks.head())
str_list = []
for colname, colvalue in stocks.iteritems():
if type(colvalue[1]) == str:
str_list.append(colname)
# Get to the numeric columns by inversion
num_list = stocks.columns.difference(str_list)
stocks_num = stocks[num_list]
print(stocks_num.head())
輸出:簡單看看前面 5 行:
概念特徵的皮爾遜相關性(Pearson Correlation)。在這裡案例中,是指來自元素週期表的礦物和元素:
stocks_num = stocks_num.fillna(value=0, axis=1)
X = stocks_num.values
from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X)
f, ax = plt.subplots(figsize=(12, 10))
plt.title('Pearson Correlation of Concept Features (Elements & Minerals)')
# Draw the heatmap using seaborn
sb.heatmap(stocks_num.astype(float).corr(),linewidths=0.25,vmax=1.0, square=True, cmap="YlGnBu", linecolor='black', annot=True)
sb.plt.show()
輸出:(這個視覺化例子是在前 16 個樣本上執行得到的)。看到元素週期表中的元素和上市公司關聯起來真的很有意思。在某種程度時,我想使用這些資料基於公司與相關元素或材料的相關性來預測其可能做出的突破。
測量「已解釋方差(Explained Variance)」和主成分分析(PCA)
已解釋方差=總方差-殘差方差(explained variance = total variance - residual variance)。應該值得關注的 PCA 投射元件的數量可以透過已解釋方差度量(Explained Variance Measure)來引導。Sebastian Raschka 的關於 PCA 的文章對此進行了很好的描述,參閱:http://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
# Calculating Eigenvectors and eigenvalues of Cov matirx
mean_vec = np.mean(X_std, axis=0)
cov_mat = np.cov(X_std.T)
eig_vals, eig_vecs = np.linalg.eig(cov_mat)
# Create a list of (eigenvalue, eigenvector) tuples
eig_pairs = [ (np.abs(eig_vals[i]),eig_vecs[:,i]) for i in range(len(eig_vals))]
# Sort from high to low
eig_pairs.sort(key = lambda x: x[0], reverse= True)
# Calculation of Explained Variance from the eigenvaluestot = sum(eig_vals)
var_exp = [(i/tot)*100 for i in sorted(eig_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)
# Cumulative explained variance# Variances plot
max_cols = len(stocks.columns) - 1plt.figure(figsize=(10, 5))
plt.bar(range(max_cols), var_exp, alpha=0.3333, align='center', label='individual explained variance', color = 'g')
plt.step(range(max_cols), cum_var_exp, where='mid',label='cumulative explained variance')
plt.ylabel('Explained variance ratio')
plt.xlabel('Principal components')
plt.legend(loc='best')
plt.show()
輸出:
從這個圖表中我們可以看到大量方差都來自於預測主成分的前 85%。這是個很高的數字,所以讓我們從低端的開始,先只建模少數幾個主成分。更多有關分析主成分合理數量的資訊可參閱:http://setosa.io/ev/principal-component-analysis
使用 scikit-learn 的 PCA 模組,讓我們設 n_components = 9。程式碼的第二行呼叫了 fit_transform 方法,其可以使用標準化的電影資料 X_std 來擬合 PCA 模型並在該資料集上應用降維(dimensionality reduction)。
pca = PCA(n_components=9)
x_9d = pca.fit_transform(X_std)
plt.figure(figsize = (9,7))
plt.scatter(x_9d[:,0],x_9d[:,1], c='goldenrod',alpha=0.5)
plt.ylim(-10,30)
plt.show()
輸出:
這裡我們甚至沒有真正觀察到聚類的些微輪廓,所以我們很可能應該繼續調節 n_component 的值直到我們得到我們想要的結果。這就是資料科學與藝術(data science and art)中的「藝術」部分。
現在,我們來試試 K-均值,看看我們能不能在下一章節視覺化任何明顯的聚類。
K-均值聚類(K-Means Clustering)
我們將使用 PCA 投射資料來實現一個簡單的 K-均值。
使用 scikit-learn 的 KMeans() 呼叫和 fit_predict 方法,我們可以計算聚類中心併為第一和第三個 PCA 投射預測聚類索引(以便了解我們是否可以觀察到任何合適的聚類)。然後我們可以定義我們自己的配色方案並繪製散點圖,程式碼如下所示:
# Set a 3 KMeans clustering
kmeans = KMeans(n_clusters=3)
# Compute cluster centers and predict cluster indices
X_clustered = kmeans.fit_predict(x_9d)# Define our own color map
LABEL_COLOR_MAP = {0 : 'r',1 : 'g',2 : 'b'}
label_color = [LABEL_COLOR_MAP[l] for l in X_clustered]
# Plot the scatter digram
plt.figure(figsize = (7,7))
plt.scatter(x_9d[:,0],x_9d[:,2], c= label_color, alpha=0.5)
plt.show()
輸出:
這個 K-均值散點圖看起來更有希望,好像我們簡單的聚類模型假設就是正確的一樣。我們可以透過這種顏色視覺化方案觀察到 3 個可區分開的聚類。
當然,聚類和視覺化資料集的方法還有很多,參考:https://goo.gl/kGy3ra
使用 seaborn 方便的 pairplot 函式,我可以以成對的方式在資料框中自動繪製所有的特徵。我們可以一個對一個地 pairplot 前面 3 個投射並視覺化:
# Create a temp dataframe from our PCA projection data "x_9d"
df = pd.DataFrame(x_9d)
df = df[[0,1,2]]
df['X_cluster'] = X_clustered
# Call Seaborn's pairplot to visualize our KMeans clustering on the PCA projected data
sb.pairplot(df, hue='X_cluster', palette='Dark2', diag_kind='kde', size=1.85)
sb.plt.show()
輸出:
構建籃子聚類(Basket Clusters)
你應該自己決定如何微調你的聚類。這方面沒有什麼萬靈藥,具體的方法取決於你操作的環境。在這個案例中是由隱藏關係所定義的股票和金融市場。
一旦你的聚類使你滿意了,你就可以設定分數閾值來控制特定的股票是否有資格進入一個聚類,然後你可以為一個給定的聚類提取股票,將它們作為籃子進行交易或使用這些籃子作為訊號。你可以使用這種方法做的事情很大程度就看你自己的創造力以及你在使用深度學習變體來進行最佳化的水平,從而基於聚類或資料點的概念最佳化每個聚類的回報,比如 short interest 或 short float(公開市場中的可用股份)。
你可以注意到了這些聚類被用作籃子交易的方式一些有趣特徵。有時候標準普爾和一般市場會存在差異。這可以提供本質上基於「資訊套利(information arbitrage)」的套利機會。一些聚類則和谷歌搜尋趨勢相關。
看到聚類和材料及它們的供應鏈相關確實很有意思,正如這篇文章說的一樣:https://www.fairphone.com/en/2017/05/04/zooming-in-10-materials-and-their-supply-chains/
我僅僅使用該資料集操作了 Cobalt(鈷)、Copper(銅)、Gallium(鎵)和 Graphene(石墨烯)這幾個列標籤,只是為了看我是否可能發現從事這一領域或受到這一領域的風險的上市公司之間是否有任何隱藏的聯絡。這些籃子和標準普爾的回報進行了比較。
透過使用歷史價格資料(可直接在 Quantopian、Numerai、Quandl 或 Yahoo Finance 使用),然後你可以彙總價格資料來生成預計收益,其可使用 HighCharts 進行視覺化:
我從該聚類中獲得的回報超過了標準普爾相當一部分,這意味著你每年的收益可以比標準普爾還多 10%(標準普爾近一年來的漲幅為 16%)。我還見過更加激進的方法可以淨掙超過 70%。現在我必須承認我還做了一些其它的事情,但因為我工作的本質,我必須將那些事情保持黑箱。但從我目前觀察到的情況來看,至少圍繞這種方法探索和包裝新的量化模型可以證明是非常值得的,而其唯一的缺點是它是一種不同型別的訊號,你可以將其輸入其它系統的流程中。
生成賣空籃子聚類(short basket clusters)可能比生成買空籃子聚類(long basket clusters)更有利可圖。這種方法值得再寫一篇文章,最好是在下一個黑天鵝事件之前。
如果你使用機器學習,就可能在具有已知和隱藏關係的上市公司的寄生、共生和共情關係之上搶佔先機,這是很有趣而且可以盈利的。最後,一個人的盈利能力似乎完全關乎他在生成這些類別的資料時想出特徵標籤(即概念(concept))的強大組合的能力。
我在這類模型上的下一次迭代應該會包含一個用於自動生成特徵組合或獨特列表的單獨演算法。也許會基於近乎實時的事件,這可能會影響那些具有隻有配備了無監督學習演算法的人類才能預測的隱藏關係的股票組。
原文連結:https://hackernoon.com/unsupervised-machine-learning-for-fun-profit-with-basket-clusters-17a1161e7aa1