零基礎入門金融風控-貸款違約預測-Task04——建模與調參

陳俊超Code My Life發表於2020-09-24

        有幸參加了阿里雲舉辦的零基礎入門金融風控-貸款違約預測訓練營。收穫頗多。

        每天記錄一些自己之前的知識盲點,需經常溫習。

        第四次的學習任務,是建模與調參。

一、模型對比與效能評估

1、模型對比

①邏輯迴歸(LR:Logistic Regression,解決監督學習中的分類問題)

        邏輯迴歸是分類任務中最最常用的首選模型。一般都選擇邏輯迴歸作為baseline模型,之後在此基礎上進行調參、更換模型等操作。

        1. 優點
        a. 訓練速度較快,分類的時候,計算量僅僅只和特徵的數目相關;
        b. 簡單易理解,模型的可解釋性非常好,從特徵的權重可以看到不同的特徵對最後結果的影響;
        c. 適合二分類問題,不需要縮放輸入特徵;
        d. 記憶體資源佔用小,只需要儲存各個維度的特徵值。
        2. 缺點
        a. 邏輯迴歸需要預先處理缺失值和異常值【可參考task3特徵工程】;
        b. 不能用Logistic迴歸去解決非線性問題,因為Logistic的決策面是線性的;
        c. 對多重共線性資料較為敏感,且很難處理資料不平衡的問題;
        d. 準確率並不是很高,因為形式非常簡單,很難去擬合資料的真實分佈;

②決策樹(DT:Decision Tree,既可以解決分類問題,也可以解決迴歸問題)

        決策樹是傳統企業最最常用的機器學習演算法,一個重要的原因是可解釋性強,也可以進行視覺化,可以清晰地觀察到做選擇的各個分支過程。

        1. 優點
        a. 簡單直觀,生成的決策樹可以視覺化展示;
        b. 資料不需要預處理,不需要歸一化,不需要處理缺失資料;
        c. 既可以處理離散值,也可以處理連續值。
        2. 缺點
        a. 決策樹演算法非常容易過擬合,導致泛化能力不強(可進行適當的剪枝);
        b. 採用的是貪心演算法,容易得到區域性最優解。

③整合模型整合方法(ensemble method)

        通過組合多個學習器來完成學習任務,通過整合方法,可以將多個弱學習器組合成一個強分類器,因此整合學習
的泛化能力一般比單一分類器要好。
        整合方法主要包括Bagging和Boosting,Bagging和Boosting都是將已有的分類或迴歸演算法通過一定方式組合起來,
形成一個更加強大的分類。兩種方法都是把若干個分類器整合為一個分類器的方法,只是整合的方式不一樣,最
終得到不一樣的效果。常見的基於Baggin思想的整合模型有:隨機森林、基於Boosting思想的整合模型有:
Adaboost、GBDT、XgBoost、LightGBM等。

        (1). 樣本選擇上: Bagging方法的訓練集是從原始集中有放回的選取,所以從原始集中選出的各輪訓練集之間是獨
立的;而Boosting方法需要每一輪的訓練集不變,只是訓練集中每個樣本在分類器中的權重發生變化。而權值
是根據上一輪的分類結果進行調整;
        (2). 樣例權重上: Bagging方法使用均勻取樣,所以每個樣本的權重相等;而Boosting方法根據錯誤率不斷調整樣
本的權值,錯誤率越大則權重越大;
        (3). 預測函式上: Bagging方法中所有預測函式的權重相等;而Boosting方法中每個弱分類器都有相應的權重,對
於分類誤差小的分類器會有更大的權重;
        (4). 平行計算上: Bagging方法中各個預測函式可以並行生成;而Boosting方法各個預測函式只能順序生成,因為
後一個模型引數需要前一輪模型的結果。

2、模型評估方法:

        對於機器學習模型的評估,最常用的就是AUC(Area Under Curve,曲線下面積)。AUC為ROC(Receiver Operating Characteristic,受試者工作特徵曲線)曲線下的面積,該值越接近1,證明模型越好。

        

二、程式碼示例。

未完持續。。。

 

 

相關文章