【機器學習PAI實踐十二】機器學習演算法基於信用卡消費記錄做信用評分

李博Garvin發表於2017-07-31

背景

如果你是做網際網路金融的,那麼一定聽說過評分卡。評分卡是信用風險評估領域常用的建模方法,評分卡並不簡單對應於某一種機器學習演算法,而是一種通用的建模框架,將原始資料通過分箱後進行特徵工程變換,繼而應用於線性模型進行建模的一種方法。

評分卡建模理論常被用於各種信用評估領域,比如信用卡風險評估、貸款發放等業務。另外,在其它領域評分卡常被用來作為分數評估,比如常見的客服質量打分、芝麻信用分打分等等。在本文中,我們將通過一個案例為大家講解如何通過PAI平臺的金融板塊元件,搭建出一套評分卡建模方案。

本實驗案例可在機器學習PAI平臺使用,包含整個實驗流程和資料:

資料集介紹


這是一份國外某機構開源的資料集,資料的內容包括每個使用者的一些性別、教育、婚姻、年齡等屬性,同時也包含使用者過去一段時間的信用卡消費情況和賬單情況。payment_next_month是目標佇列,表示使用者是否償還信用卡賬單,1表示償還,0表示沒有償還。

資料供30000條。
資料集下載地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

實驗流程

先來看下實驗圖:

現在對一些關鍵節點進行介紹:

(1)拆分

將輸入資料集分為兩部分,一部分用來訓練模型,另一部分用來預測評估。

(2)分箱

分箱元件類似於onehot編碼,可以將資料按照分佈對映成更高維度的特徵。我們以age這個欄位為例,分箱元件可以按照資料在不同區間的分佈進行分享操作,分箱結果如圖:


最終分箱元件的輸出如圖,每個欄位都被分箱到多個區間上:

(3)樣本穩定指數PSI

樣本穩定指數是衡量樣本變化所產生的偏移量的一種重要指標,通常用來衡量樣本的穩定程度,比如樣本在兩個月份之間的變化是否穩定。通常變數的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大於0.25表示變數變化比較劇烈,需要特殊關注。

本案例中,可以綜合比較拆分前後以及分箱結果的樣本穩定程度,返回每個特徵的PSI數值:

(4)評分卡訓練

評分卡訓練的結果圖如下:

評分卡的精髓是將複雜的比較難理解的一些模型權重用符合業務標準的分數表示。

  • intercepy表示的是截距
  • Unscaled是原始的權重值
  • Scaled是分數更改指標,比如對於pay_0這個特徵,如果特徵落在(-1,0]之間分數就減29,如果特徵落在(0,1]之間分數就加上27.
  • importance表示每個特徵對於結果的影響大小,數值越大表示影響越大

(5)評分卡預測

展示每個預測結果的最終評分,在本案例中表示的是每個使用者的信用評分。

結論

基於使用者的信用卡消費記錄,最終通過評分卡模型的訓練,我們在評分卡預測中可以拿到每個使用者的最終信用評分,這個評分可以應用到其它的各種貸款或者金融相關的徵信領域中去。

體驗產品:阿里雲數加機器學習平臺

作者微信公眾號(與作者討論):

相關文章