為何股票量化交易要用到pandas庫？

Gandedong發表於2021-08-07

原文網址 : https://learnku.com/articles/59796

歡迎使用社群 Markdown 編輯器寫文章！

在學習pandas的時候有時候我會覺得非常奇怪，為什麼美國的投資公司這麼重視Pandas，甚至在招聘要求上註明量化投資分析師要掌握pandas呢？例如我見到Gelber Group的交易員崗位中，註明了這樣的一句話：“經濟學、金融、統計學或相關領域的學士學位，且具有以下的程式設計經驗 - Python（NumPy、pandas 和相關庫）。”
後來我也去登入一下美股的股票庫，覺得是以下幾個原因：
首先，美股上市公司的股票量大，全美國大概有2萬支上市公司股票，可能有人覺得不是很多，但中國上證加深證加起來也不過5千幾隻股票，即使再加上香港4千多，也不過是美股一半的體量左右。而要在這一定時間內查詢2萬隻股票中有那些可以在近期進行投資，可以說是一頓非常花時間的操作，而如果能靠計算機分析，這會是一個很有效率的工具。

其次，現金賬戶交易規則不同。A股主要是當天買的股票最早第二個交易日才能賣（T+1），美股沒有此方面的限制, 當日可賣（T+0），這就決定了你必須在最短的時間內決定是否購入和出售手中的股票。而且更厲害的是高頻交易的投資公司，平均每次持倉時間極短，用量變來達到質變，甚至還要求交易員自己寫計算機程式。所以割起韭菜來，已經不是用人力了，而是自動化收割了。
不過，在中國，現時是沒有高頻交易這樣的事的，因為單日開倉交易量超過10手的，會被納入“日內開倉交易量異常”等的導常交易行為。

再次，美國股票下跌過程中也有進行對衝的工具，即可以買跌獲利，如渾水之類的公司，這個時候，如果想穩健一點，用計算機每天計算出好幾個能互衝的投資組合，理論上可以抵擋不少的市場風險，達到持續收益的目的。

所以在美國金融市場，可以見到很多投資公司有一個專門的量化投資部門或量化投資公司，而交易員和分析員大多數是數學出身，或是計算機程式設計師，他們除了會研究股票，還會研究那型別的CPU能提高交易速度，也會修改程式碼，努力減少每個bug。因為他們清楚，這些雖然不會讓他們賺到多少錢，但往往會減少他們會虧的錢。這就是我們審計中常說的——風險控制比盈利重要。
注意：我是審計師，不是程式設計師。

國內涉及證券的兩個庫分別為tushare、baostock，由於tushare需要積分，我只好介紹baostock庫，它對個人使用者除了能免費使用外，還不需要註冊，對初學者比較友好。而且它能提供大量上市公司歷年財務資料，行情資料。
如果是Anaconda執行環境，即通過Anaconda prompt進入命令列。

為何股票量化交易要用到pandas庫？

一般我們用Jupyter Notebook的話，就一定要在Anaconda prompt輸入pip install baostock才能成功安裝。
安裝成功後，我們就可以通過baostock介面查詢到股票資料，具體使用方法可以到官網查詢：http://baostock.com/baostock/index.php/Python_API文件

不過官網的程式碼只有最基本的功能，且沒有中文，一般來說我都會作一些修改，如我的日K線程式碼：

##歷史K線指標
import baostock as bs  ##呼叫baostock庫
import pandas as pd    ##呼叫pandas庫
# 登陸系統
lg = bs.login()
# 周月線指標：date,code,open,high,low,close,volume,amount,adjustflag,turn,pctChg
#code：股票程式碼，sh或sz.+6位數字程式碼
rs = bs.query_history_k_data_plus("sh.000001",
    "date,code,open,high,low,close,preclose,volume,amount,pctChg",##以半形逗號分隔。此引數不可為空；
    start_date='2017-01-01', end_date='2021-06-30', frequency="d")##查詢的起始日
##frequency：資料型別，預設為d，日k線；d=日k線、w=周、m=月、5=5分鐘、15=15分鐘、30=30分鐘、60=60分鐘k線資料
# 設定一個空集
data_list = []
while (rs.error_code == '0') & rs.next():##rs.error_code：當為“0”時表示連線成功，當為非0時表示失敗；next()返回下一個專案
    # 獲取一條記錄，將記錄合併在一起
    data_list.append(rs.get_row_data())#當以上的條件成立時，將資料放到空集中
result = pd.DataFrame(data_list, columns=rs.fields)##匯入pandas中
result.rename(columns={'date':'日期'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'code':'證券號'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'open':'開盤價'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'high':'最高價'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'low':'最低價'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'close':'收盤價'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'preclose':'昨日收盤價'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'volume':'成交數量(股)'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'amount':'成交金額(元)'},inplace=True) #將表頭的名稱改成統一的名稱
result.rename(columns={'pctChg':'漲跌幅'},inplace=True) #將表頭的名稱改成統一的名稱
result["成交金額(元)"].astype(float)

# 輸出到excel檔案
with pd.ExcelWriter("d:\歷史K線指標.xlsx", mode='a',engine='openpyxl') as writer:
    result.to_excel(writer,index=False)  
print(result)

# 登出系統
bs.logout()

結果如下：

為何股票量化交易要用到pandas庫？

由於我查的是2017年度至2021年6月30日的資料,資料量不多，我直接用EXCEL的圖表進行分析。

為何股票量化交易要用到pandas庫？

可見，最近幾個月上證的成交金額漸漸升高。
程式碼說明：

1、 lg = bs.login()是必須要用到的程式碼，沒有這一行的話，就不能連線到庫，當然沒有網路的話也是連線不到的。

2、 bs.query_history_k_data_plus是一個專門用來查詢K線指標的函式，在baostock庫還有很多不同的函式，主要的函式如下：

函式名稱	作用
query_history_k_data_plus()	獲取滬深A股估值指標(日頻)資料（指數未提供估值資料）
query_dividend_data()	獲取除權除息資訊資料（預披露、預案、正式都已通過）
query_adjust_factor()	獲取復權因子資訊資料
query_profit_data()	獲取季頻盈利能力資訊
query_operation_data()	獲取季頻營運能力資訊
query_growth_data()	獲取季頻成長能力資訊
query_balance_data()	獲取季頻償債能力資訊
query_cash_flow_data()	獲取季頻現金流量資訊
query_dupont_data()	獲取季頻杜邦指數資訊
query_performance_express_report()	獲取季頻公司業績快報資訊
query_stock_basic()	獲取證券基本資料
query_stock_industry()	獲取行業分類資訊
query_sz50_stocks()	獲取上證50成分股資訊，更新頻率：每週一更新。
query_hs300_stocks()	獲取滬深300成分股資訊，更新頻率：每週一更新。
query_zz500_stocks()	獲取中證500成分股資訊，更新頻率：每週一更新。
query_deposit_rate_data()	獲取存款利率
query_loan_rate_data()	獲取貸款利率
query_required_reserve_ratio_data()	獲取存款準備金率
query_money_supply_data_month()	獲取貨幣供應量
query_shibor_data()	獲取銀行間同業拆放利率

基本上程式碼不用改，只改函式命令就可以得出不同的結果。

3、 while (rs.error_code == ‘0’) & rs.next():是一個條件語句，如果不等於0，就表示連線不成功，所以當=0時，和還有下一個資料時，我們可以進行合併。

4、合併用了append()函式，目的用於在列表末尾新增新的物件，rs.get_row_data()就是這些新的物件了。

5、 result.rename(columns={‘date’:’日期’},inplace=True)是一個將列名替換的語句，意思就是將原來用英文表示的date替換成中文‘日期’。

從這段程式碼我們可以將baostock庫理解成一個固定了格式的爬蟲庫，使用的目的其實就是為了獲得一個資料介面，然後將資料轉化成pandas格式，以便我們進行資料分析。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Python量化交易系統實戰--獲取股票資料
2024-04-12
Python
深度學習量化交易---0.1.股票K線圖繪製
2018-11-25
深度學習
C#繪製股票K線圖和量化交易買賣點
2024-10-30
C#
為何要再封裝 AJAX？
2018-11-12
封裝
為何要學習心理學
2018-03-14
pandas 將函式應用到列（qbit）
2022-12-29
函式
源中瑞量化交易軟體_量化自動交易平臺
2019-01-22
量化交易系統開發需求丨量化交易原始碼模式
2021-01-15
原始碼模式
數字貨幣量化交易平臺數字貨幣量化交易平臺有哪些雲度數字貨幣量化交易什麼是量化交易雲度量化介紹數字貨幣市場的量化交易工具有哪些? 量化交易需要注意什麼？
2019-01-07
股票量化合約系統開發（方案設計）| 股票量化合約系統開發原始碼
2023-04-04
原始碼
量化合約交易模式軟體開發|量化交易系統搭建
2023-04-18
模式
量化交易：日內迴轉交易策略
2024-06-25
Python量化交易系統實戰_Python常用庫介紹
2024-04-20
Python
為股票和加密貨幣交易構建規則引擎 - ksred
2022-04-12
加密
量化交易系統開發app，量化馬丁策略交易平臺搭建
2021-04-08
APP
“量化交易”系統開發技術詳細丨“量化交易”原始碼
2021-01-15
原始碼
【譯】為何我們要寫super(props)？
2018-12-12
移植 Python 量化交易 TA-Lib 庫到函式計算
2019-12-31
Python函式
量化交易價量突破策略
2024-05-26
量化交易系統開發
2022-03-10
2020年量化交易總結
2021-01-05
有Hive之後，為何還要學mapreduce
2018-08-20
Hive
學PHP 為何要加入技術交流群
2023-11-23
PHP
為何要大力發展教學直播系統？
2020-04-01
量化交易系統開發技術闡述丨量化交易原始碼開發
2024-03-15
原始碼
Ether Capital股票上市加拿大證券交易所交易
2018-04-24
API
深度學習量化交易---0.2.基於長短時記憶網路預測股票價格1
2018-11-27
深度學習
何為程式語言？為什麼要學C語言？
2019-03-04
C語言
【量化交易】頂底分型策略
2024-05-26
區塊鏈為何要註冊新加坡基金會
2018-12-28
區塊鏈
Piplsay：40% 英國人認為加密交易風險與股票一樣大
2021-02-19
加密
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
量化交易/系統視乎開發/DAPP/量化合約交易技術開發詳情
2023-05-05
APP
智慧量化合約跟單系統開發技術/量化交易/合約跟單交易
2023-03-31
P2569 [SCOI2010] 股票交易
2024-12-06
量化交易開發應用：如何搭建量化投資系統？
2023-09-26
Python量化交易系統實戰--計算交易指標
2024-04-13
Python指標
量化交易：海龜交易法則的Python實現
2024-05-25
Python

為何股票量化交易要用到pandas庫？

相關文章