零基礎入門金融風控-貸款違約預測-Task04——建模與調參

陳俊超Code My Life發表於2020-09-24

原文網址 : https://blog.csdn.net/upon120/article/details/108785709

有幸參加了阿里雲舉辦的零基礎入門金融風控-貸款違約預測訓練營。收穫頗多。

每天記錄一些自己之前的知識盲點，需經常溫習。

第四次的學習任務，是建模與調參。

一、模型對比與效能評估

1、模型對比

①邏輯迴歸（LR：Logistic Regression，解決監督學習中的分類問題）

邏輯迴歸是分類任務中最最常用的首選模型。一般都選擇邏輯迴歸作為baseline模型，之後在此基礎上進行調參、更換模型等操作。

1. 優點
a. 訓練速度較快，分類的時候，計算量僅僅只和特徵的數目相關；
b. 簡單易理解，模型的可解釋性非常好，從特徵的權重可以看到不同的特徵對最後結果的影響；
c. 適合二分類問題，不需要縮放輸入特徵；
d. 記憶體資源佔用小，只需要儲存各個維度的特徵值。
2. 缺點
a. 邏輯迴歸需要預先處理缺失值和異常值【可參考task3特徵工程】；
b. 不能用Logistic迴歸去解決非線性問題，因為Logistic的決策面是線性的；
c. 對多重共線性資料較為敏感，且很難處理資料不平衡的問題；
d. 準確率並不是很高，因為形式非常簡單，很難去擬合資料的真實分佈；

②決策樹（DT：Decision Tree，既可以解決分類問題，也可以解決迴歸問題）

決策樹是傳統企業最最常用的機器學習演算法，一個重要的原因是可解釋性強，也可以進行視覺化，可以清晰地觀察到做選擇的各個分支過程。

1. 優點
a. 簡單直觀，生成的決策樹可以視覺化展示；
b. 資料不需要預處理，不需要歸一化，不需要處理缺失資料；
c. 既可以處理離散值，也可以處理連續值。
2. 缺點
a. 決策樹演算法非常容易過擬合，導致泛化能力不強（可進行適當的剪枝）；
b. 採用的是貪心演算法，容易得到區域性最優解。

③整合模型整合方法（ensemble method）

通過組合多個學習器來完成學習任務，通過整合方法，可以將多個弱學習器組合成一個強分類器，因此整合學習
的泛化能力一般比單一分類器要好。
整合方法主要包括Bagging和Boosting，Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來，
形成一個更加強大的分類。兩種方法都是把若干個分類器整合為一個分類器的方法，只是整合的方式不一樣，最
終得到不一樣的效果。常見的基於Baggin思想的整合模型有：隨機森林、基於Boosting思想的整合模型有：
Adaboost、GBDT、XgBoost、LightGBM等。

(1). 樣本選擇上： Bagging方法的訓練集是從原始集中有放回的選取，所以從原始集中選出的各輪訓練集之間是獨
立的；而Boosting方法需要每一輪的訓練集不變，只是訓練集中每個樣本在分類器中的權重發生變化。而權值
是根據上一輪的分類結果進行調整；
(2). 樣例權重上： Bagging方法使用均勻取樣，所以每個樣本的權重相等；而Boosting方法根據錯誤率不斷調整樣
本的權值，錯誤率越大則權重越大；
(3). 預測函式上： Bagging方法中所有預測函式的權重相等；而Boosting方法中每個弱分類器都有相應的權重，對
於分類誤差小的分類器會有更大的權重；
(4). 平行計算上： Bagging方法中各個預測函式可以並行生成；而Boosting方法各個預測函式只能順序生成，因為
後一個模型引數需要前一輪模型的結果。

2、模型評估方法：

對於機器學習模型的評估，最常用的就是AUC（Area Under Curve，曲線下面積）。AUC為ROC（Receiver Operating Characteristic，受試者工作特徵曲線）曲線下的面積，該值越接近1，證明模型越好。

二、程式碼示例。

未完持續。。。

金融風控-貸款違約預測-Task04 建模與調參
2020-09-24
資料競賽入門-金融風控（貸款違約預測）四、建模與調參
2020-09-24
零基礎入門金融風控之貸款違約預測—模型融合
2020-09-27
模型
零基礎入門金融風控之貸款違約預測挑戰賽——簡單實現
2022-11-28
task04金融風控建模調參
2020-09-24
資料競賽入門-金融風控（貸款違約預測）五、模型融合
2020-09-27
模型
0基礎入門金融風控的 Task4 建模調參
2020-09-24
天池金融風控-貸款違約挑戰賽 Task5 模型融合
2020-09-27
模型
資料探勘實踐（金融風控）：金融風控之貸款違約預測挑戰賽（上篇）[xgboots/lightgbm/Catboost等模型]--模型融合：stacking、blending
2023-05-17
boot模型
貸款違約預測專案-資料分箱
2020-11-09
Datawhale零基礎入門金融風控 Task5 模型融合打卡
2020-09-27
模型
建模與調參
2020-09-24
【專案：信用卡客戶使用者畫像及貸款違約預測模型】
2020-06-26
模型
建模調參
2020-09-24
機器學習股票價格預測從爬蟲到預測-預測與調參
2019-02-24
機器學習爬蟲
零基礎入門資料探勘——二手車交易價格預測：baseline
2022-12-03
零基礎入門Python教程4節與基礎語法
2021-03-24
Python
美聯邦學生貸款基於收入還款佔比擴大仍有11%出現違約
2020-02-24
次世代建模如何入門？零基礎小白必看經驗！你還不快收藏！
2020-10-10
12月第1周業務風控關注 | 100款違法違規APP下架整改
2019-12-08
APP
零基礎入門Serverless：Hello World
2021-09-14
Server
一季度信貸不良率上升金融風控策略升級迫在眉睫
2020-06-23
零基礎入門Python的路徑
2018-11-17
Python
零基礎入門│帶你理解Kubernetes
2018-12-18
《Kubernetes零基礎快速入門》簡介
2022-06-10
信貸風控全流程-反欺詐
2024-11-21
二手房、金融貸款微站
2019-05-11
借貸寶智慧風控協助警方，高效打擊套路貸
2020-11-23
Rxjs建模入門
2019-04-21
JS
零基礎入門前端的修煉之道
2018-10-30
前端
Java零基礎入門（三）流程控制
2020-09-25
Java
零基礎學習Alfred(一)：入門操作
2020-10-13
Alfred
給零基礎小白的Python入門教程
2019-07-10
Python
信貸風控模型開發----模型簡介
2018-03-21
模型
風控大講堂：做汽車金融風控有前途嗎？
2018-04-16
資料分析 | 零基礎入門資料分析（一）：從入門到摔門？
2018-06-21
鄭州擬調整公積金貸款政策：首套住房最高貸款70％HGR
2022-03-19
PS 零基礎入門到精通視訊教程
2019-02-15

零基礎入門金融風控-貸款違約預測-Task04——建模與調參

相關文章