資料遊戲Round1：預測5月15號招商銀行的股價

Max_Lyu發表於2019-05-14

　　前陣子報名參加了一個資料比賽，題目是預測5月15號（星期三）招商銀行的股價，截止時間是在5月12號（星期天）。在本次預測中，我用到的是嶺迴歸。

嶺迴歸

　　嶺迴歸是迴歸的一種，它解決迴歸中重大疑難問題：排除多重共線性，進行變數的選擇，在存在共線性問題和病態資料偏多的研究中有較大的實用價值。按照度娘百科的解釋：嶺迴歸是一種專用於共線性資料分析的有偏估計迴歸方法，實質上是一種改良的最小二乘估計法，通過放棄最小二乘法的無偏性，以損失部分資訊、降低精度為代價獲得迴歸係數更為符合實際、更可靠的迴歸方法，對病態資料的擬合要強於最小二乘法。

　　多重共線性指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。

　　由於嶺迴歸涉及的數學知識比較複雜，且文章篇幅有限，這裡不過多展開。

資料獲取

　　本次資料是通過 Tushare 的 get_hist_data()獲取的。Tushare是一個免費、開源的python財經資料介面包。python安裝tushare直接通過
pip install tushare 即可安裝。

import tushare as ts
data = ts.get_hist_data('600848')

　　執行之後可以檢視它的前後幾行資料，按照tushare官方的說明，get_hist_data()只能獲取近3年的日線資料，而他的返回值的說明是這樣的：
〖date：日期；open：開盤價；high：最高價；close：收盤價；low：最低價；volume：成交量；price_change：價格變動；p_change：漲跌幅；ma5：5日均價；ma10：10日均價；ma20:20日均價；v_ma5:5日均量；v_ma10:10日均量；v_ma20:20日均量〗

　　均價的意思大概就是股票n天的成交價格或指數的平均值。均量則跟成交量有關。至於其他的返回值，應該是一下子就能明白的吧。在獲得資料之後，我們檢視一下描述性統計，通過 data.describe() 檢視是否存在什麼異常值或者缺失值。

　　這樣看來似乎除了由於週末以及節假日不開盤導致的當天的資料缺失以外，並沒有其他的缺失和異常。但是這裡我們不考慮節假日的缺失值。

資料預處理

　　由於獲取的資料是按日期降序排序，但本次預測跟時間序列有關，因此我們需要把順序轉一下，讓它按照日期升序排序。

data1 = data[::-1]

　　處理完順序之後，我們要做一下特徵值的選擇。由於 volume 以及均量的值很大，如果不進行處理的話，很可能對整體的預測造成不良影響。由於時間有限，而且考慮到運算的複雜度，這裡我沒有對這些特徵進行處理，而是直接將它們去掉了。至於均價，我是按照自己的理解，和10日均價、20日均價相比，5日均價的範圍沒那麼大，對近期的預測會比另外兩個要好，因此保留5日均價。接著，我用 sklearn.model_selection 的 cross_val_score，分別檢視除〖'open', 'close', 'high', 'low', 'ma5'〗以外的其他剩餘屬性對預測值的影響。發現 ‘p_change’、'price_change' 這兩個屬性對預測結果的影響不大，為了節省記憶體，增加運算速度，提高預測的準確性，也直接把它們去掉了。完了之後，檢視前後三行資料。

data1 = data1[['open','high','low','ma5','close']]
data1.head(3), data1.tail(3)

建模預測

　　由於提交截止日期是週日，預測的是週三，因此需要先對週一週二的資訊進行預測。在這裡我突然想到一個問題，是用前一天的所有資料來訓練模型以預測當天的 close 比較準確，還是用當天除了 close 以外的其他資料來訓練模型以訓練當天的 close 比較準呢？為了驗證這個問題，我分別對這兩種方法做了實驗。

　　為了減少程式碼量，定義了一個函式用以評估模型的錯誤率。

def get_score(X_train, y_train):
    ridge_score = np.sqrt(-cross_val_score(ridge, X_train, y_train, cv=10, scoring='neg_mean_squared_error'))
    return np.mean(ridge_score)

　(1)、用前一天的所有資料來當訓練集

y_train = data1['close'].values[1:]
X_train = data1.values[:-1]
score = get_score(X_train, y_train)

　　輸出結果大約為0.469，這個錯誤率就比較大了，不太合理，更何況還要預測其他特徵值作為測試資料。

(2)、用當天除了 close 以外的其他資料來當訓練集

data2 = data1[:]
y_train = data2.pop('close').values
X_train = data2.values
score = get_score(X_train, y_train)

　　輸出結果大約為0.183，跟第一個相比簡直好多了。所以，就決定是你了！

　　接下來建模並把模型儲存下來：

y_train = data1['close']
X_train = data1[['open', 'high', 'low', 'ma5']]
close_model = ridge.fit(X_train, y_train)
joblib.dump(ridge, 'close_model.m')

　　在預測之前呢，我們先拿訓練集的後8組資料做一下測試，做個圖看看：

scores = []
for x in X_train[-8:]:
    score = close_model.predict(np.array(x).reshape(1, -1))
    scores.append(score)
x = np.arange(8)
fig, axes = plt.subplots(1, 1, figsize=(13, 6))
axes.plot(scores)
axes.plot(y_train[-8:])
plt.xticks(x, data1.index[-8:].values, size=13, rotation=0)

　　看到這樣子我還是相對比較放心的，不過，這個模型的訓練值除了“close”以外的屬性都是已知的，要預測三天後的還得預測前兩天的測試值。

def get_model(s):
    y_train = data1[s].values[1:]
    X_train = data1.values[:-1]
    model = ridge.fit(X_train, y_train)
    return model

def get_results(X_test):
    attrs = ['open', 'high', 'low', 'ma5']
    results = []
    for attr in attrs:
        result = get_model(attr).predict(X_test)
        results.append(result)
    return results

　　接下來預測三天的股價：

X_test = data1[-1:].values
for i in range(3):
    results = get_results(X_test)
    close = close_model.predict(np.array(results).reshape(1, -1))
    print(close)
    results.append(close)
    X_test = np.array(results).reshape(1, -1)
print("5月15日招商銀行關盤時的股價為：" + str(round(close[0], 2)))

[33.46370029]
[33.4532047]
[33.43836721]
5月15日招商銀行關盤時的股價為：33.44

總結

　　雖然預測結果是這樣子，但感覺這樣預測似乎很菜啊。畢竟預測的每個值都會有偏差，多個偏差累加起來就很多了，這讓我有點害怕。不知道存不存在不預測其他值直接預測close的方法，或者說直接預測5月15號的而不用先預測13、14號的方法。雖然我知道有種演算法是時間序列演算法，但不是很懂。希望哪位大神看了能給我一些建議，指點迷津。

　　對於一個自學資料分析的在校學生，苦於沒有專案經驗，正好趕上這次的【資料遊戲】，能利用此次機會操作一波真的很不錯。

招商銀行：2021年長期價值投資發現報告
2021-06-06
國密招商銀行對接
2022-06-08
招商銀行數字化轉型之路
2023-02-09
招商銀行 KubeVela 離線部署實踐
2022-04-06
PHP 檢測銀行卡賬號
2019-07-25
PHP
2020-2024年全球遊戲裝置平均銷售價格預測（附原資料表）
2020-10-13
遊戲
Python爬取中國銀行外匯牌價(statsmodels預測分析)–(二)
2019-03-03
Python
Python爬取中國銀行外匯牌價(statsmodels預測分析)--(二)
2018-11-09
Python
國內遊戲人預測：2020年遊戲行業的9個趨勢
2020-02-21
遊戲行業
招商銀行：2020中國家族信託報告
2020-11-16
招商銀行：當代青年保險態度洞察
2021-07-17
美股收盤走勢分化蘋果股價累計下跌了15%
2022-02-28
蘋果
軟銀2019年全年財務業績預測資料
2020-04-13
2020移動遊戲預測
2020-02-04
遊戲
官媒發聲肯定遊戲產業價值，遊戲股全線爆發，行業拐點要到來了嗎？
2022-11-18
遊戲產業行業
對抗類遊戲平衡性評價與環境預測方法
2019-08-06
遊戲
如何根據銀行卡號獲取對應的銀行編號，如：ICBC
2018-09-28
Python爬取中國銀行外匯牌價(爬蟲 + PyFlux簡單預測分析)--(一)
2018-11-07
Python爬蟲UX
多家遊戲股漲幅超15%、位元組跳動入局，“疫情”下游戲業的“異軍突起”？
2020-02-20
遊戲
機器學習股票價格預測從爬蟲到預測-資料爬取部分
2019-03-04
機器學習爬蟲
基於大資料的使用者行為預測
2019-01-02
大資料
使用招商銀行雲直連服務提現(.Net6)
2023-03-04
詳解 Kaggle 房價預測競賽優勝方案：用 Python 進行全面資料探索
2018-10-25
Python
阿里遭SEC調查“雙十一”資料股價大跌
2018-05-24
阿里
騰訊投資雲暢遊戲，佔股10%
2020-09-04
遊戲
女性向遊戲第一股背後的行業陰霾
2019-10-21
遊戲行業
數字商業的新解法,他們打算在遊戲世界裡招商引資
2023-04-05
遊戲
邊緣化的A股遊戲行業：在衰落的道路上，漸行漸遠
2020-11-24
遊戲行業
OPPO R15上市時間與價格預測 OPPO R15什麼時候上市？
2018-03-02
App Annie&IDC：2020年全球遊戲行業趨勢預測
2020-05-28
APP遊戲行業
個數是如何用大資料做行為預測的？
2019-01-04
大資料
遊戲模型研究：預測與反饋
2021-10-26
遊戲模型
A股遊戲公司四成虧損遊戲製作人轉行寫網路小說
2019-05-29
遊戲
2018內蒙古大資料產業深圳招商推介會舉行
2018-06-09
大資料產業
3D遊戲引擎Unity上市：市值180億紅杉銀湖是股東
2020-09-21
3D遊戲引擎Unity
我預測了你的預測！“非主流”烏式遊戲的千層套路——《玻璃之路》
2020-04-14
遊戲
2021年中國銀行業主要品牌價值（附原資料表）
2021-11-01
行業
日本遊戲公司股價集體下跌任天堂索尼世嘉均未能倖免
2020-03-11
遊戲

資料遊戲Round1：預測5月15號招商銀行的股價

嶺迴歸

資料獲取

資料預處理

建模預測

總結

相關文章