機器學習股票價格預測從爬蟲到預測-預測與調參

WeaponZhi發表於2019-02-24

原文網址 : https://flycode.co/archives/276794

一

上篇文章我們進行了黃金行情資料爬取，並對黃金資料進行了一波花式分析，這篇文章我們將用我們之前的文章所用過的策略進行黃金價格的分析，並通過分析，優化我們的程式碼，提升預測的正確性。

我們輸出一下這3650天的漲跌情況的柱狀分佈圖

rate_of_return.plot(kind='hist',bins=150,alpha=0.3,color='g',normed=1)
rate_of_return.plot(kind='kde',xlim=[-0.1,0.1],style='r',grid=True,figsize=(15,10))
plt.show()
複製程式碼

僅用三行程式碼，我們就輸出了這樣一個優美的柱狀分佈圖，這裡面紅色的曲線叫kde圖，中文名字叫核密度估計圖，是在概率論中用來估計未知的密度函式。

我們可以看到，漲跌幅的分佈是一個比較標準的正態分佈，中間高兩邊小，而且對於XAUUSD來說，因為有高達兩百倍這樣的槓桿比率的存在，我們看來很小的一些漲跌幅波動，對於炒外匯的人來說，那一上一下就是好幾個億啊！

二

OK，現在我們按照機器學習股票價格預測初級實戰這篇文章的方法對黃金價格進行預測，主要思路就是，通過對預測當天前兩天的漲跌情況作為特徵，而標籤為預測當天的漲跌情況。

這樣跑下來，我們的預測正確率為53%，實際上這個結果我認為還是有一定道理的，如果行情連續兩天都在漲，那麼第三天最後是漲的情況可能確實要多一些。

這邊因為程式碼重複，我就直接截圖了

因為我有自己玩過外匯，所以大概會看一些簡單的趨勢，而這些趨勢判斷的時間段經常是以月為單位的，所以我們可以動態的改變一下視窗期，一個月的工作日有21，22天這樣，那麼我們就從看看預測概率在window為1-22情況下的情況吧。

# 視窗期對預測數量的影響
win_ratio = []
window_list = [x for x in range(22) if x != 0]
i = 1
for window in window_list:
   
   X = deque()
   y = deque()
   clf = tree.DecisionTreeClassifier()
   prediction = 0
   test_num = 0
   win_num = 0


   current_index = window
   
   for current_index in range(current_index, len(up_and_down)-1, 1):
       fact = up_and_down[current_index+1]
       
       X.append(list(up_and_down[(current_index-window): current_index]))
       y.append(up_and_down[current_index])
       if len(y) > 100:
           test_num += 1
           clf.fit(X, y)
   
           prediction = clf.predict([list(up_and_down[(current_index-window+1): current_index+1])])
       
           if prediction[0] == fact:
               win_num += 1
   ratio = win_num/test_num
   print("已完成預測",i,'次')
   i += 1
   win_ratio.append(ratio)

fig = plt.figure(figsize=(12,10))
plt.plot(window_list,win_ratio,'ro--')
plt.show()
複製程式碼

結果非常有趣，我們發現，視窗期從8開始，預測的正確率呈現出一個比較明顯的上揚趨勢，甚至在window為17天的時候，正確率達到驚人的百分之57。

實際上我有在別的品種，比如股票的品種上跑過相同的程式碼，但大多數的正確率只有52-53之間。看，我們好似發現了黃金外匯中的一個比較有趣的影響特徵了。

實際上我這樣的寫法過於粗暴，因為我們window的數量對於這個案例來說直接決定了我們的特徵維度，window越大，你會發現我們整個的預測邏輯執行時間將會越長。這裡會涉及到一個特徵工程，我們可以可以把這樣的特徵轉化為一個對映。這樣，無論window是多少，最後都會轉化為一個特徵。

比如，如果window=4，然後其中一個樣本的前四天的漲跌情況為，漲漲跌跌，通過對映，我們可以用一個向量來表示:[1,1,0,0]。當然啦，特徵工程是一個非常重要的事情，我們今天的重點並不在這。

我們來試試對於預測sample進行動態改變會對預測結果帶來多少影響。

# 樣本數量對預測率的影響
window = 2
win_ratio = []
samples_list = [x*5 for x in range(60) if x != 0]

for samples in samples_list:
   
   X = deque()
   y = deque()
   clf = tree.DecisionTreeClassifier()
   prediction = 0
   test_num = 0
   win_num = 0


   current_index = 2

   for current_index in range(current_index, len(up_and_down)-1, 1):
       fact = up_and_down[current_index+1]
       
       X.append(list(up_and_down[(current_index-window): current_index]))
       y.append(up_and_down[current_index])
       if len(y) > samples:
           test_num += 1
           clf.fit(X, y)
   
           prediction = clf.predict([list(up_and_down[(current_index-window+1): current_index+1])])
       
           if prediction[0] == fact:
               win_num += 1
   ratio = win_num/test_num        
   win_ratio.append(ratio)
print("預測完畢")


fig = plt.figure(figsize=(12,10))
plt.plot(samples_list,win_ratio,'ro--')
plt.show()
複製程式碼

沒錯，看起來確實有些影響，但看看我們的y軸數值，實際上影響並不是很大，這裡主要因為我的迴圈數量還是很低，最高的300對於3000多的完整資料來說，還是不太夠的。

再有，我這套程式碼的訓練泛化性並不高，我在sample訓練之後，雖然劃分了訓練集和測試集，但每次預測完一個測試資料就會把這條資料在下次預測的時候新增到訓練資料集裡，所以結果差距不大，確實在情理之中。

這裡涉及到一個拆分資料的問題，如果可以，儘量將資料拆分成三層 : 訓練集、驗證集和測試集。

三

文章差不多要結束了，我們的價格預測，實際上還差得遠呢，最重要的是，我並不是一個專業的金融分析師，做這樣的量化交易與預測分析，顯然是需要金融專業的人和程式設計師配合才能擦出火花，我一直覺得金融是機器學習目前最適用的領域了，它的資料多，指標全，太適合做歷史資料分析了，任重而道遠，還有很多值得我去學習的。

這是最近兩篇文章 ipy 和 py 原始碼檔案的 Github 連結，有需要的朋友請下載觀看，建議使用 jupyter notebook 觀看，體驗更好一點

原始碼連結

參考文章：關於漲跌的思考

推薦閱讀

量化交易與人工智慧到底是咋回事

機器學習股票價格預測初級實戰

機器學習股票價格預測從爬蟲到預測(資料爬取部分)

關注公眾號獲取更多幹貨文章-AI極客研修站

機器學習股票價格預測從爬蟲到預測-資料爬取部分
2019-03-04
機器學習爬蟲
機器學習股票價格預測初級實戰
2019-03-03
機器學習
在 Airbnb 使用機器學習預測房源的價格
2019-02-20
AI機器學習
從爬蟲到機器學習預測，我是如何一步一步做到的？
2019-02-27
爬蟲機器學習
使用機器學習預測房價(附連結)
2019-04-16
機器學習
利用深度學習和機器學習預測股票市場（附程式碼）
2019-01-04
深度學習機器學習
機器學習之分類：預測偏差
2020-06-28
機器學習
Tensorflow神經網路預測股票均價
2018-05-20
神經網路
pytorch實現股票預測
2020-12-19
PyTorch
【機器學習】線性迴歸預測
2022-06-23
機器學習
精確預測相分離蛋白質，同濟&中國科學院機器學習預測器PSPire
2024-03-22
機器學習
機器學習之迴歸分析--預測值
2020-11-19
機器學習
使用pmml跨平臺部署機器學習模型Demo——房價預測
2021-11-21
機器學習模型
機器學習專案---預測心臟病（二）
2020-12-02
機器學習
機器學習專案---預測心臟病（一）
2020-12-01
機器學習
深度學習量化交易---0.2.基於長短時記憶網路預測股票價格1
2018-11-27
深度學習
波士頓房價預測
2024-03-28
HEVC幀內預測學習（二） 35種預測模式的計算
2020-11-01
模式
基於機器學習預測Airbnb的城市旅行成本
2018-11-27
機器學習AI
Python機器學習預測分析核心演算法1
2020-10-08
Python機器學習演算法
從人臉識別到機器翻譯：58個超有用的機器學習和預測API
2018-05-07
機器學習API
OpML 2019提前看：模型表現預測與分散式機器學習
2019-05-20
模型分散式機器學習
【Matlab 041期】【數學建模】Matlab 電力預測預測之灰度預測組合預測指數平滑回歸分析
2021-01-04
Matlab
ML.NET 示例：迴歸之價格預測
2018-12-08
勝三：2020媒體價格增長預測
2020-04-08
二手車交易價格預測筆記
2024-07-29
筆記
為了預測股票，我用TensorFlow深度學習了股市資料
2019-02-26
深度學習
手把手：教你如何用深度學習模型預測加密貨幣價格
2018-03-14
深度學習模型加密
採用 Python 機器學習預測足球比賽結果
2019-05-08
Python機器學習
房價預測Task1
2020-05-12
機器學習實戰 | 性別預測模型的構建與優化
2020-05-27
機器學習模型優化
從DDPM到DDIM(四) 預測噪聲與後處理
2024-07-29
預測分析 · 員工滿意度預測
2020-05-30
Python爬取中國銀行外匯牌價(爬蟲 + PyFlux簡單預測分析)--(一)
2018-11-07
Python爬蟲UX
使用LSTM模型做股票預測【基於Tensorflow】
2020-11-26
模型
金融風控-貸款違約預測-Task04 建模與調參
2020-09-24
機器學習實戰專案-預測數值型迴歸
2019-04-08
機器學習
機器學習預測2018年世界盃冠軍隊
2018-06-20
機器學習

機器學習股票價格預測從爬蟲到預測-預測與調參

一

二

三

關注公眾號獲取更多幹貨文章-AI極客研修站

相關文章