更多精彩內容,歡迎關注公眾號:數量技術宅,也可新增技術宅個人微訊號:sljsz01,與我交流。
實時股票資料的重要性
對於四大可交易資產:股票、期貨、期權、數字貨幣來說,期貨、期權、數字貨幣,可以從交易所提供的api收到實時行情資料,而股票由於量化交易介面不面向普通人開放,導致大家想要獲取到股票的實時資料,十分困難。而與此同時,股票實時資料,又是極其重要的場內交易資料。
對於手動交易者而言,實時資料一方面可以輔助盯盤,另一方面,可以用程式簡單開發到價提醒,到某個價位,進行入場和出場的交易。
對於量化交易者,實時行情就更加重要了。我們接收實時行情之後,不僅需要用實時資料計算策略訊號,而且當策略訊號需要對某個股票進行下單的時候,我們也需要知道該股票的最新價格、盤口資料,從而根據價格+盤口,選擇合適的價位下單。此外,實時資料落地後,還可以為我們的策略回測服務。
爬蟲最通俗原理解釋
爬蟲,相當於模仿了網頁查詢的動作,比如我們在瀏覽器中輸入了www.baidu.com,瀏覽器向我們返回百度的主頁,其實這就是一個請求+返回的過程。我們請求的是地址,返回的是資料(儘管我們看到的是百度主頁,其實背後對應的還是一些列的資料,只不過後續的視覺化展示成了網頁)。
對於請求股票資料來說,也是同理。比如我們請求某一隻股票的資料(以600000浦發銀行為例),在瀏覽器地址中輸入:http://hq.sinajs.cn/list=sh600000,股票程式碼可任意修改,瀏覽器返回如下資料集並顯示:
那麼,對於Python來說,我們如何使用Python來模仿網頁查詢的動作?這裡必須要藉助一個Python的三方庫:request庫。
requests是使用Apache2 licensed 許可證的HTTP庫。Request支援HTTP連線保持和連線池,支援使用cookie保持會話,支援檔案上傳,支援自動響應內容的編碼,支援國際化的URL和POST資料自動編碼。可以說,requests在python內建模組的基礎上進行了高度的封裝,從而使得python進行網路請求時,變得人性化,使用Requests可以輕而易舉的完成瀏覽器可有的任何操作。與此同時,requests會自動實現持久連線keep-alive。
requests庫的上述優點,加上其使用的便捷性,使得其成為Python爬蟲的首選工具。我們通過requests,來重複一遍上述網頁的查詢過程,步驟也很簡單,首先查詢單個股票,返回如下
再次查詢多個股票,返回如下,可以看到,用requests進行查詢所返回的結果,與我們網頁上看到的是完全一致的,這也說明requests完美的模擬了瀏覽器的請求動作。
Python爬蟲Sina Stock實戰
第一步,Sina API + Requests庫呼叫核心函式
通過呼叫Sina Stock API,實時查詢股票價格。我們採用多股票查詢,使用requests請求介面。
核心函式邏輯:code傳入股票程式碼,呼叫requests庫進行查詢,並解析查詢結果,得到我們想要查詢的股票最新價格、當日漲跌幅、昨收盤價等關鍵欄位
第二步,通過threading多執行緒同時查詢結果、通過Queue實現執行緒池
我們簡要介紹一下threading和Queue。threading模組中包含了關於執行緒操作的豐富功能,包括:常用執行緒函式,執行緒物件,鎖物件,遞迴鎖物件,事件物件,條件變數物件,訊號量物件,定時器物件,柵欄物件。threading.Thread:執行緒物件,重要方法,start():開啟執行緒活動。它將使得run()方法在一個獨立的控制執行緒中被呼叫,需要注意的是同一個執行緒物件的start()方法只能被呼叫一次,如果呼叫多次,則會報RuntimeError錯誤。run():此方法代表執行緒活動。
Python的Queue模組中提供了同步的、執行緒安全的佇列類,包括FIFO(先入先出)佇列Queue,LIFO(後入先出)佇列LifoQueue,和優先順序佇列PriorityQueue。這些佇列都實現了鎖原語,能夠在多執行緒中直接使用。可以使用佇列來實現執行緒間的同步。Queue.put(item) 寫入佇列;Queue.get([block[, timeout]])獲取佇列
第三步,模組化實現:Worker類 & Stock類
Worker類,主要實現功能:
-
傳入執行緒例項物件,呼叫init、start方法,過載run函式
-
work_queue存放要查詢的佇列,依次取出(FIFO),查詢結果存到result_queue佇列,當佇列滿,取出結果佇列中所有查詢結果,並列印
Stock類,主要實現功能:
-
初始化生產者、消費者佇列,生產者佇列為空,消費者佇列最大數量是查詢的股票數量
-
按預設的執行緒資料,初始化執行緒池,繫結Worker類
-
對於每次每隻要查詢的股票,加入生產者佇列
-
定義爬蟲獲取資料的函式
最後,我們呼叫Worker類和Stock類,就能得到想要獲取的結果了。
執行結果展示
程式不僅可以獲取個股資料,也能夠獲取指數資料,我們預設訂閱了上證指數、深圳綜指、萬科A、浦發銀行,4個資料流,以下是預設執行結果的展示,我們列印了最新價、漲跌幅、昨收價等關鍵資料。我們按照一定的時間間隔,獲取資料並列印。
程式的擴充套件:在主程式入口,可修改查詢的股票數量,我們支援多股票同時查詢;查詢的時間間隔、查詢的執行緒數量的修改。
當然,我們也可以對該爬蟲程式做後續的進一步擴充,比如計算量化策略訊號,落地資料作為回測資料,等等。
往期乾貨分享推薦閱讀
Omega System Trading and Development Club內部分享策略Easylanguage原始碼
【數量技術宅|量化投資策略系列分享】基於指數移動平均的股指期貨交易策略
AMA指標原作者Perry Kaufman 100+套交易策略原始碼分享
【數量技術宅|金融資料系列分享】套利策略的價差序列計算,恐怕沒有你想的那麼簡單
【數量技術宅|量化投資策略系列分享】成熟交易者期貨持倉跟隨策略
【數量技術宅|金融資料分析系列分享】為什麼中證500(IC)是最適合長期做多的指數
商品現貨資料不好拿?商品季節性難跟蹤?一鍵解決沒煩惱的Python爬蟲分享
【數量技術宅|金融資料分析系列分享】如何正確抄底商品期貨、大宗商品
【數量技術宅|量化投資策略系列分享】股指期貨IF分鐘波動率統計策略
【數量技術宅 | Python爬蟲系列分享】實時監控股市重大公告的Python爬蟲