關於評分卡模型那些事兒,看這篇就對了

頂象技術發表於2022-08-11

風險並不是所有人都能輕鬆看到,信貸公司同樣如此。

8月4日下午15:00,頂象研發總監就評分卡模型展開分享,詳細介紹了評分卡模型的原理、評分卡模型的構建過程、評分卡模型的開發投產以及頂象的評分卡模型實踐。


評分卡模型原理

通常來說,我們把貸款分為抵押貸款和信用貸款。抵押貸款顧名思義需要貸款人以抵押物作擔保向銀行貸款,對銀行來說這是一種“有保障”的貸款,而信用貸則不需要提供抵押或擔保,僅憑自己的信譽就能取得貸款,這也在一定程度上加大了信用貸的利率和風險。

因而,信用貸對於金融機構和借貸公司來說是一個不小的風險。

那麼,如何幫助金融機構和借貸公司來規避風險呢?業內的有效解決方法是建立評分卡模型來幫助金融機構和借貸公司來評估借貸人的風險。

評分卡模型是常用的金融風控手段之一,誕生於上世紀50年代,由FICO公司開發,經歷了70多年依然在信用評估中不可替代,幾乎每一家金融公司都在用評分卡模型來評估風險。

圖片


其原理是根據客戶的各種屬性和行為資料,利用信用評分模型,對客戶的信用進行評分,從而決定是否給予授信,授信的額度和利率,減少在金融交易中存在的交易風險。

按照不同的業務階段,可以劃分為三種:

貸前:申請評分卡(Application score card),稱為A卡

貸中:行為評分卡(Behavior score card),稱為B卡

貸後:催收評分卡(Collection score card),稱為C卡


如何構建評分卡模型?

首先我們來初步認識下評分卡。

圖片


評分卡分為離散特徵(性別、婚姻狀況、學歷)和連續特徵(年齡、月收入),其中年齡和月收入又進行欄位細分。

要構建一個評分卡,需要以下幾個步驟:

首先是資料準備。一般來說,構建評分卡可用的資料也分為三類:

圖片


個人在金融機構的賬戶與行為資料,包括交易行為、日常消費、存款資訊、投資理財、逾期資訊等;

個人在中國人民銀行的徵信報告,包括個人近5年內,在國內留下的所有信用資訊、家庭住址、工作單位、配偶資訊、手機號、公積金、社保資訊、信貸記錄、房貸車貸記錄、歷史逾期資訊、違法行為、徵信查詢資訊,基於人行徵信,可以衍生出 “上千維” 特徵,足以構建一個效果非常不錯的貸前評分卡;

第三方公司提供的個人信用分,諸如芝麻分、微信支付分、京東信用分、百融分等。

本質上來說,中國人民銀行的徵信報告好於金融機構的賬戶與行為資料好於第三方公司提供的個人信用分。

其次是資料探索,包括資料的缺失情況、直方圖分佈、最大值、最小值、均值、分位數。

然後是資料預處理,包括資料清洗、缺失值處理、異常值處理。

特徵篩選,透過統計學的方法,篩選出對違約狀態影響最顯著的指標。主要有單變數特徵選擇和基於機器學習的方法。

分箱,包括變數分段、變數的WOE(證據權重)變換和邏輯迴歸估算三個部分。

模型評估,評估模型的區分能力、預測能力、穩定性,並形成模型評估報告,得出模型是否可以使用的結論。

生成評分卡(信用評分),根據邏輯迴歸的係數和WOE等確定信用評分的方法,將Logistic模型轉換為標準評分的形式。

建立評分系統(佈置上線),根據生成的評分卡,建立自動信用評分系統。

最後透過評分卡模型收集違約資訊,進行果監控

圖片


那麼,如何對特徵進行分箱(區間劃分),為什麼要分箱?每個分箱的得分,怎麼確定的?

WOE、IV、PSI、KS,它們有什麼含義?

我們先來看分箱。

分箱是對特徵變數進行區間劃分或者對不同列舉值進行合併的過程,它可以降低特徵的複雜度,提升變數可解釋性。

圖片


分箱的兩個功能:

拆分:對 “連續變數” 進行分段離散化,使它變成 “離散變數”。比如:年齡、月收入。拆分分為等頻拆分、等距拆分、資訊熵分箱。

以資訊熵分箱為例,這是一種監督的拆分方式,可衡量好壞樣本的區分度。其方法是先對特徵所有值進行排序遍歷特徵所有值 (連續值需要進行細粒度分組),以每個值做為劃分點,計算 “條件熵”,選擇 “條件熵最小” 的特徵值作為分割點,將資料分成兩部分,設定一些停止條件,重複以上步驟。

圖片


合併:減少離散變數的狀態數,對 “離散變數” 進行合併。比如:地區、學歷。合併又分為卡方檢驗和WOE值。

以卡方檢驗為例。卡方檢驗是一種假設檢驗方法,先提出兩個變數沒有相關性,然後對資料進行抽象證明他們是否有相關性。根據卡方檢驗的計算公式對比實際頻數和理論頻數是否具有顯著差異,卡方值越小,實際頻數與理論頻數就越接近,也就證明卡方檢驗成立,也就可以證明分組與分類不相關。

圖片


每個變數的分箱數,控制在十個以下,通常 5個左右是最佳的;分箱越多,模型過擬合的風險越高,模型的穩定性也會變差,在金融場景,風險可控與穩定至關重要。

WOE (Weight of Evidence) 是判斷 “一個分箱區間”,區分好壞樣本的能力。

其公式如下:

圖片


IV (Information Value) 是計算各分箱區間的 WOE 加權和,可以衡量 “一個特徵”,區分好壞樣本的能力。

其公式如下:

圖片


但事實上,分箱方法很多,頂象實現了一種簡單可行的全自動分箱方法。

圖片

對於連續變數,可先進行等頻拆分得到細分箱,對於離散變數可直接認為是細分箱,然後進行WOE合併,每次合併WOE值最接近的相鄰細分箱或離散值,同時要滿足以下條件:

1、每個分箱至少包含 5% 的樣本;

2、每個分箱必須包含 正常樣本與違約樣本;

3、分箱數控制在 5個左右;

4、除了 age 外,其他變數儘可能保持單調性。

值得注意的是,特徵分箱並不是完美的,但總體來說利大於弊。

比如連續變數分箱、離散變數合併,會 “降低特徵變數的複雜度,降低模型過擬合的風險”;可以 “增強模型的穩定性”,對特徵變數的異常波動不會反應太大,也利於適應更廣泛的客群;將特徵變數劃分為有限的分箱,可以 “增強模型的可解釋性”;可以更自然地將 “缺失值作為單獨的分箱”。

圖片


目前,主流的評分卡模型仍以邏輯迴歸模型為主要模型。假設客戶違約的機率為p,則正常的機率為1  p。由此可以得到違約機率:

圖片


評分卡是 “將Odds賠率的對數,轉變為分值的線性函式”,表示如下:

圖片

為了確定公式中的A與B值,需要定義2個條件:

1、基準分 P_0 ,在Odds賠率為 θ_0 時的得分 (例如,賠率為 1:50 時,基準分為 500)

2、PDO (point of double),Odds賠率翻倍時減少的分值 (賠率為 1:25 時,減少 20)

圖片

評分卡設定的分值刻度可以透過將分值表示為機率對數的線性表示式來定義,即:

A和B都是常數且(a>=0, b>=0)。當希望違約機率越低,得分越高時,取負號。通常情況下,這是分值的理想變動方向,即高分值代表低風險,低分值代表高風險。

邏輯迴歸演算法相比於其他演算法更優,一方面是因為其“可解釋性強,易於理解”,可以追查每個變數的得分,變數的權重也可以從業務視角去交叉驗證;一方面是其“簡單,穩定”可配合分箱可以進一步增強穩定性,分箱本身也一定程度上解決了部分非線性問題;並且“易於跟蹤,排查問題”,當模型衰退、客群發生變化時,透過分箱的 PSI 與 IV 可以快速定位出問題的原因。

評分卡模型如何評估、應用、跟蹤?

評分卡模型評估分為效果評估和穩定性評估。

先來看效果評估。

圖片


模型輸出的每個評分值,都可以作為閾值。如果小於閾值,我們可以預測為“違約”,如果大於等於閾值,則可以預測為“正常”,根據每個閾值,可以計算出混淆矩陣,然後根據混淆矩陣我們可以進一步計算出違約比率或正常比率,進而得出KS曲線或者ROC曲線。

其中,KS曲線具備對好壞樣本的區分能力,如果KS值小於0.20則不建議採用,大於0.75則可能存在錯誤。

圖片


但需要注意的是,單獨從KS訓練樣本評估出的KS值還不足以評估模型的好壞,一定要做長期的驗證來證明KS值是穩定的,確保模型在驗證集上的 KS 與 訓練樣本上的 KS,不出現大幅度下降,如果下降幅度超過10% (比如: 訓練集 KS = 0.50,4個月後 KS_4 = 0.45, 下降幅度為10%),說明模型衰退明顯,也就進一步說明其穩定性是有問題的。

接下來看下穩定性評估。

圖片


PSI (Population Stability Index)稱為群體穩定性指標,用來 “對比2個資料集的分佈,是否發生比較大的偏差”,對比一定要有參照物,對評分卡模型來說,參照物是模型訓練時的 “訓練樣本” (期望分佈),而評估物件稱為 “驗證樣本”(實際分佈)。

PSI 越小則說明穩定性越好,如果PSI大於0.50則需要進一步分析特徵變數。

圖片


PSI 可從兩個計算維度來看,即評分 PSI和特徵變數 PSI。

評分 PSI對 “模型的輸出分值” 進行分箱,在驗證集與訓練集上做 PSI 對比,判斷是否發生大的變化。如下圖,期望分佈代表訓練集,實際分佈代表驗證集。

圖片

特徵變數 PSI對 “入模的每個特徵變數” 進行分箱,在驗證集與訓練集 上做 PSI 對比,判斷是否發生大的變化。

同樣的,PSI 也需要做跨期驗證。確保 “評分值、每個特徵變數”,在近N個月的驗證集上,對比訓練集計算出的PSI,在可接受的範圍內。

圖片

接下來看下模型的應用。

圖片

當模型評估合格後,此時我們需要權衡違約率與透過率,確定自動透過閾值。如果閾值在0.2%~0.8%之間則可自動透過閾值,如果在0.8%~3.0%之間則需要人工稽核閾值,如果大於3.0%則會直接拒絕。

評分越高,違約率與透過率也是逐步提升,此時我們就需要權衡違約率與透過率,設定閾值來區分樣本好壞。

圖片


最後我們來看下模型跟蹤。

當模型應用後,可能會出現衰退甚至不可用,其原因主要有三:

一是客群變化:模型開發階段選取的人群,與應用階段的人群,發生大的偏差。業務在應用的過程中,有可能在某個渠道引入新人群。

二是特徵變數的含義或加工邏輯發生變化:入模的特徵變數,在某個時間點,技術人員不小心更改了欄位的加工邏輯,比如:欄位的時間視窗,過濾條件等邏輯變化。

三是社會環境發生變化:同樣的客群,在不同時期不同的社會經濟環境下,模型的效果表現可能也會不同,比如:新冠疫情、俄烏衝突等社會問題,會導致經濟衰退、失業率升高,進而影響客戶的還款能力。

而發現模型衰退時,可透過 “評分 PSI” 可以發現問題,但其根本原因是特徵變數,模型監控與分析,一定要深入到 “特徵變數”,透過 “特徵變數 PSI” 找出根本原因 。

模型跟蹤也分為PSI 和KS。

PSI 可做月度監控,當月的 “申請樣本” 與 “模型訓練樣本” 進行對比,計算出 “評分PSI” 與 “每個特徵變數的PSI”。

圖片


同樣的,KS 也可做月度監控:收集月度內的 “申請樣本” 以及 “違約標籤”,計算出 “評分KS” 與 “每個特徵變數的IV”。

圖片


整體來看,評分卡模型是統計學的創新應用,分箱與WOE編碼降低了資料的複雜度,降低了特徵的靈敏度,提升了模型的穩定性,同時可進行跨期驗證,確保驗證模型的長期穩定可靠,並且具備配套的跟蹤監控體系,根據評分PSI、引數PSI、評分KS、引數IV快速分析模型衰退的原因。

下期我們業務安全大講堂將由頂象技術總監杜威為大家帶來《業務安全平臺核心模組解析——裝置指紋》的主題課程,敬請期待!


相關文章