CMSE11475金融機器學習

j22h7x發表於2024-04-02

金融機器學習(CMSE11475)專案說明該專案旨在實踐使用最先進的機器學習模型來分析財務資料和解決財務問題。
單個專案:該專案是單獨的專案。不需要任何組。學生應根據資料選擇自己的主題獨自完成自己的研究問題。在學習中相互合作和討論鼓勵過程,但專案應由學生自己完成,而不是分組課業。專案截止日期和提交:單個專案從15個開始執行2024年1月1日(第1周)至2024年3月29日(第10周)。提交截止日期為4日星期四14:00
2024年4月。專案的提交包括專案報告和所有實施程式碼(不要提交任何資料程式碼應在最初提供的資料集上工作。報告和程式碼應為ZIPPED提交一個檔案包。報告必須遵循給定的模板。所有部分都是必需的。程式碼必須完整且每個主要邏輯部分的詳細評論。
專案主題
每個學生都應該從以下建議的主題(提供資料)中單獨選擇一個主題您自己的專案。我們鼓勵您修改/改進專案主題,使其更加實用,具有挑戰性,適合您自己的研究問題。如果許多學生選擇相同的建議也沒關係只要程式碼和專案報告明顯不同,主題就可以作為其專案。該專案的目的是應用課程中所示的五種技術中的至少三種(深度神經網路XGBoost;交叉驗證;集合模型;可解釋性)來解決財務問題。專案提示所有建議的主題都是基於計算機實驗室的例子,並進行了一些更改和擴充套件。你可以在計算機實驗室的例子中很容易找到類似的方法和模型。仔細研究這些例子程式碼對於理解本課程和完成小組課程至關重要。建議的主題預測限額訂單簿話題我們可以使用深度神經網路來預測股票在多個時期的高頻回報嗎他們的限額訂單簿資訊?資料
蘋果、亞馬遜、英特爾、微軟、谷歌5只股票21日10級高頻漲停指令書2012年6月。資料大小從40MB到100+MB。您可以選擇使用部分資料。方法您可以定義以下功能:是10個級別的要價和出價( = 1,…,10),以及,和目標是LOB中點返回 結束 未來視野( ≥ 1. = (,1.,)本專案旨在估算功能(),這需要一系列歷史 作為輸入並生成向量
本主題將使用LSTM作為潛在模型之一。您可以嘗試使用原始70尺寸特徵 與不同. 您也可以提取尺寸較低的特徵 < 70透過自動編碼器,然後使用提取的具有不同特徵的LSTM模型. 您可以提供這兩種方法的比較。該專案還應解決特徵重要性的問題。
預測股票波動
話題本主題包括兩個子主題,均與波動性預測有關。這些分主題如下:1)代 寫CMSE11475金融機器學習 股票波動是否取決於路徑?2) 股票波動是否過去依賴?
為了解決這些問題,您可以選擇使用各種機器學習模型進行預測股票回報波動。這可以透過利用過去的回報(取決於路徑)或過去的波動性來實現(過去依賴)。解決上述任何一個子問題都符合FML課程。沒有必要完成這兩個問題的工作。
資料
在計算機lab_3_1中,我們展示了從雅虎財經下載股票價格的方法。本主題使用股票調整價格以計算其波動性。您應將波動率計算為每日算術回報,但需要注意的是,這種波動性應該基於回報來計算在不同的、不重疊的範圍內-天間隔。 可以是五天或十天。下圖顯示了波動率計算,其中是每天的回報和
是五天的波動率。要成功完成課程,您必須選擇至少兩種股票來評估其中一種上述問題。這些股票的選擇應該符合你的個人興趣。
方法
該主題是調查波動性是路徑依賴性還是過去依賴性。但是長度 屬於道路和過去都是未知的。您可以選擇 作為調查的5、10、15、20或40天,並得出結論用最好的. 請自行決定長度 在你的課業中選擇。對於路徑依賴的問題,輸入特徵包含過去的每日回報 天: = (1.2.2.)產出是波動性 =。請注意,中的退貨不應包含在產出波動率的計算。如下圖所示,預測波動率,您可以使用每日回報1.2.在過去 天。對於過去依賴的問題,輸入特徵包含以前的 揮發性: = (1.2.3.)產出是波動性 =.
本主題應使用任何機器學習模型。本主題還可以回答長度 生成路徑依賴性和過去依賴性的最佳預測結果。預測高頻加密貨幣回報
話題
本主題旨在研究機器學習模型在預測任何情況下提前15分鐘返回時的表現14種流行的加密貨幣。資料
資料集“cryptocurrency_prices.csv”包含數百萬行1分鐘頻率的市場資料,可追溯到提供了2018年用於構建模型。該資料集包含14種流行的加密貨幣,其區別在於資產ID。資產ID和名稱的詳細資訊在檔案“asset_details.csv”中。您可以選擇任何加密貨幣預測。檔案中的“權重”是計算加密貨幣的整個市場將在下一節中介紹。
資產ID重量資產名稱
2 2.397895273比特幣現金
0 4.304065093幣安幣
1 6.779921907比特幣
5 1.386294361 EOS。IO
7 2.079441542以太坊經典
6 5.894402834以太坊
9 2.397895273升硬幣
11 1.609437912 Monero
13 1.791759469 TRON
12 2.079441542恆星
3 4.406719247 Cardano
8 1.098612289 IOTA
10 1.098612289製造商
4 3.555348061狗狗幣
在檔案“cryptocurrency_prices.csv”中,目標已被計算並作為列“目標”提供。目標來源於未來15分鐘內每個加密貨幣資產的日誌回報 作為剩餘15分鐘日誌返回目標註意,在每一行中,“目標”已經對齊為未來15分鐘的返回殘差,並且將被預測。(目標:超過15分鐘的地平線。)
我們可以看到資料集中包含的功能如下:timestamp:所有時間戳都作為第二個Unix時間戳返回(自1970-01-01 00:00:00.000 UTC)。此資料集中的時間戳是60的倍數,表示逐分鐘資料Asset_ID:與其中一種crytoccurrencies對應的資產ID(例如,比特幣的Asset_ID=1)。對映從Asset_ID到加密資產包含在Asset_details.csv中。計數:時間間隔內的交易總數(最後一分鐘)。
開盤價:時間間隔的開盤價(美元)。
高:在一段時間內達到的最高價格(美元)。
低:時間間隔內達到的最低價格(美元)。
收盤價:時間間隔的收盤價(美元)。
數量:購買或出售資產的數量,以基礎貨幣美元顯示。VWAP:資產在一段時間內的平均價格,按交易量加權。VWAP是一個聚合貿易資料的形式。
方法
您可以定義一些附加功能。例如,過去5分鐘的日誌返回、過去5分鐘絕對對數回報率、過去5分鐘的最高值、過去5分的最低值等。你可以嘗試簡單的模型,即線性樹,和複雜的模型,如LSTM,並比較它們的預測表演如果使用LSTM,您還可以研究回溯視窗的長度提供了最佳預測表演此外,還應研究特徵的重要性,以顯示哪些特徵對庫存有貢獻未來表現最好。

相關文章