零基礎入門金融風控-貸款違約預測-Task04——建模與調參
有幸參加了阿里雲舉辦的零基礎入門金融風控-貸款違約預測訓練營。收穫頗多。
每天記錄一些自己之前的知識盲點,需經常溫習。
第四次的學習任務,是建模與調參。
一、模型對比與效能評估
1、模型對比
①邏輯迴歸(LR:Logistic Regression,解決監督學習中的分類問題)
邏輯迴歸是分類任務中最最常用的首選模型。一般都選擇邏輯迴歸作為baseline模型,之後在此基礎上進行調參、更換模型等操作。
1. 優點
a. 訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關;
b. 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響;
c. 適合二分類問題,不需要縮放輸入特徵;
d. 記憶體資源佔用小,只需要儲存各個維度的特徵值。
2. 缺點
a. 邏輯迴歸需要預先處理缺失值和異常值【可參考task3特徵工程】;
b. 不能用Logistic迴歸去解決非線性問題,因為Logistic的決策面是線性的;
c. 對多重共線性資料較為敏感,且很難處理資料不平衡的問題;
d. 準確率並不是很高,因為形式非常簡單,很難去擬合資料的真實分佈;
②決策樹(DT:Decision Tree,既可以解決分類問題,也可以解決迴歸問題)
決策樹是傳統企業最最常用的機器學習演算法,一個重要的原因是可解釋性強,也可以進行視覺化,可以清晰地觀察到做選擇的各個分支過程。
1. 優點
a. 簡單直觀,生成的決策樹可以視覺化展示;
b. 資料不需要預處理,不需要歸一化,不需要處理缺失資料;
c. 既可以處理離散值,也可以處理連續值。
2. 缺點
a. 決策樹演算法非常容易過擬合,導致泛化能力不強(可進行適當的剪枝);
b. 採用的是貪心演算法,容易得到區域性最優解。
③整合模型整合方法(ensemble method)
通過組合多個學習器來完成學習任務,通過整合方法,可以將多個弱學習器組合成一個強分類器,因此整合學習
的泛化能力一般比單一分類器要好。
整合方法主要包括Bagging和Boosting,Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來,
形成一個更加強大的分類。兩種方法都是把若干個分類器整合為一個分類器的方法,只是整合的方式不一樣,最
終得到不一樣的效果。常見的基於Baggin思想的整合模型有:隨機森林、基於Boosting思想的整合模型有:
Adaboost、GBDT、XgBoost、LightGBM等。
(1). 樣本選擇上: Bagging方法的訓練集是從原始集中有放回的選取,所以從原始集中選出的各輪訓練集之間是獨
立的;而Boosting方法需要每一輪的訓練集不變,只是訓練集中每個樣本在分類器中的權重發生變化。而權值
是根據上一輪的分類結果進行調整;
(2). 樣例權重上: Bagging方法使用均勻取樣,所以每個樣本的權重相等;而Boosting方法根據錯誤率不斷調整樣
本的權值,錯誤率越大則權重越大;
(3). 預測函式上: Bagging方法中所有預測函式的權重相等;而Boosting方法中每個弱分類器都有相應的權重,對
於分類誤差小的分類器會有更大的權重;
(4). 平行計算上: Bagging方法中各個預測函式可以並行生成;而Boosting方法各個預測函式只能順序生成,因為
後一個模型引數需要前一輪模型的結果。
2、模型評估方法:
對於機器學習模型的評估,最常用的就是AUC(Area Under Curve,曲線下面積)。AUC為ROC(Receiver Operating Characteristic,受試者工作特徵曲線)曲線下的面積,該值越接近1,證明模型越好。
二、程式碼示例。
未完持續。。。
相關文章
- 資料競賽入門-金融風控(貸款違約預測)四、建模與調參
- 零基礎入門金融風控之貸款違約預測—模型融合模型
- 零基礎入門金融風控之貸款違約預測挑戰賽——簡單實現
- 資料競賽入門-金融風控(貸款違約預測)五、模型融合模型
- 0基礎入門金融風控的 Task4 建模調參
- 天池金融風控-貸款違約挑戰賽 Task5 模型融合模型
- 貸款違約預測專案-資料分箱
- 資料探勘實踐(金融風控):金融風控之貸款違約預測挑戰賽(上篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blendingboot模型
- Datawhale零基礎入門金融風控 Task5 模型融合 打卡模型
- 【 專案:信用卡客戶使用者畫像 及 貸款違約預測模型 】模型
- 【機器學習PAI實踐六】金融貸款發放預測機器學習AI
- 機器學習股票價格預測從爬蟲到預測-預測與調參機器學習爬蟲
- 快速零基礎入門 DockerDocker
- 次世代建模如何入門?零基礎小白必看經驗!你還不快收藏!
- 零基礎入門資料探勘——二手車交易價格預測:baseline
- 零基礎入門Python教程4節與基礎語法Python
- 零基礎入門Serverless:Hello WorldServer
- Python零基礎入門看完這一篇就夠了:零基礎入門筆記Python筆記
- 【零基礎】PostgreSQL從入門到精通SQL
- 零基礎輕鬆入門——JAVA基礎學習Java
- 零基礎入門Python的路徑Python
- 零基礎入門前端的修煉之道前端
- 零基礎學習Alfred(一):入門操作Alfred
- Java零基礎入門(三)流程控制Java
- 乾貨丨AI助力金融風控的趨勢與挑戰AI
- 3dmax零基礎到精通之中式風格餐桌腳建模,後期處理!3D
- 網際網路金融風控模型大全模型
- 資料分析 | 零基礎入門資料分析(一):從入門到摔門?
- Rxjs建模入門JS
- 給零基礎小白的Python入門教程Python
- PS 零基礎入門到精通視訊教程
- 零基礎入門│帶你理解Kubernetes
- 零基礎快速入門:java的命名規範Java
- 《Kubernetes零基礎快速入門》簡介
- C#零基礎小白快速入門指導C#
- 微信小程式零基礎入門踩坑之路微信小程式
- ERWin建模基礎教程(非常好的入門教程)
- 華為安全檢測服務加碼,招行金融風控創新升級