貸還是不貸：如何用Python和機器學習幫你決策？

王樹義發表於2018-06-28

原文網址 : https://juejin.im/post/5b34a33ce51d4553156bf931

Python機器學習

耳聞目睹了機器學習的諸般神奇，有沒有衝動打算自己嘗試一下？本文我們通過一個貸款風險評估的案例，用最通俗的語言向你介紹機器學習的基礎招式，一步步幫助你用Python完成自己的第一個機器學習專案。試過之後你會發現，機器學習真的不難。

任務

祝賀你，成功進入了一家金融公司實習。

第一天上班，你還處在興奮中。這時主管把你叫過去，給你看了一個檔案。

檔案內容是這個樣子的：

主管說這是公司寶貴的資料資產。囑咐你認真閱讀，並且從數字中找出規律，以便做出明智的貸款決策。

每一行資料，都代表了之前的一次貸款資訊。你琢磨了很久，終於弄明白了每一列究竟代表什麼意思：

grade：貸款級別
sub_grade: 貸款細分級別
short_emp：一年以內短期僱傭
emp_length_num：受僱年限
home_ownership：居住狀態（自有，按揭，租住）
dti：貸款佔收入比例
purpose：貸款用途
term：貸款週期
last_delinq_none：貸款申請人是否有不良記錄
last_major_derog_none：貸款申請人是否有還款逾期90天以上記錄
revol_util：透支額度佔信用比例
total_rec_late_fee：逾期罰款總額
safe_loans：貸款是否安全

最後一列，記錄了這筆貸款是否按期收回。拿著以前的這些寶貴經驗教訓，主管希望你能夠總結出貸款是否安全的規律。在面對新的貸款申請時，從容和正確應對。

主管讓你找的這種規律，可以用決策樹來表達。

決策

我們來說說什麼是決策樹。

決策樹長得就像這個樣子：

做決策的時候，你需要從最上面的節點出發。在每一個分支上，都有一個判斷條件。滿足條件，往左走；不滿足，向右走。一旦走到了樹的邊緣，一項決策就完成了。

例如你走在街上，遇見鄰居老張。你熱情地打招呼：

“老張，吃了嗎？”

好了，這裡就是個分支。老張的回答，將決定你的決策走向，即後面你將說什麼。

第一種情況。

老張：吃過了。

你：要不來我家再吃點兒？

第二種情況。

老張：還沒吃。

你：那趕緊回家吃去吧。再見！

……

具體到貸款這個例項，你需要依次分析申請人的各項指標，然後判定這個貸款申請是否安全，以做出是否貸款給他的決策。把這個流程寫下來，就是一棵決策樹。

作為一名金融界新兵，你原本也是抱著積極開放的心態，希望多嘗試一下的。但是當你把資料表下拉到最後一行的時候，你發現記錄居然有46509條！

你估算了一下自己的閱讀速度、耐心和認知負荷能力，覺得這個任務屬於Mission Impossible（不可能完成），於是開始默默地收拾東西，打算找主管道個別，辭職不幹了。

且慢，你不必如此沮喪。因為科技的發展，已經把一項黑魔法放在了你的手邊，隨時供你取用。它的名字，叫做機器學習。

學習

什麼叫機器學習？

從前，人是“操作”計算機的。一項任務如何完成，人心裡是完全有數的。人把一條條指令下達給電腦，電腦負責傻呵呵地幹完，收工。

後來人們發現，對有些任務，人根本就不知道該怎麼辦。

前些日子的新聞裡，你知道Alpha Go和柯潔下圍棋。柯潔不僅輸了棋，還哭了。

可是製造Alpha Go的那幫人，當真知道怎樣下棋，才能贏過柯潔嗎？你就是讓他們放棄體育家精神，攢雞毛湊撣子一起上，跟柯潔下棋……你估計哭的是誰？

一幫連自己下棋，都下不贏柯潔的人，又是如何製作出電腦軟體，戰勝了人類圍棋界的“最強大腦”呢？

答案正是機器學習。

你自己都不知道如何完成的任務，自然也不可能告訴機器“第一步這麼幹，第二步那麼辦”，或者“如果出現A情況，開啟第一個錦囊；如果出現B情況，開啟第二個錦囊”。

機器學習的關鍵，不在於人類的經驗和智慧，而在於資料。

本文我們接觸到的，是最為基礎的監督式學習(supervised learning)。監督式學習利用的資料，是機器最喜歡的。這些資料的特點，是都被打了標記。

主管給你的這個貸款記錄資料集，就是打了標記的。針對每個貸款案例，後面都有“是否安全”的標記。1代表了安全，-1代表了不安全。

機器看到一條資料，又看到了資料上的標記，於是有了一個假設。

然後你再讓它看一條資料，它就會強化或者修改原先的假設。

這就是學習的過程：建立假設——收到反饋——修正假設。在這個過程中，機器通過迭代，不斷重新整理自己的認知。

這讓我想起了經典相聲段子“蛤蟆鼓”裡面的對話片段。

甲：那我問問你，蛤蟆你看見過吧？

乙：誰沒見過蛤蟆呀。

甲：你說為什麼它那麼小的動物，叫喚出來的聲音會那麼大呢？

乙：那是因為它嘴大肚兒大脖子粗，叫喚出來的聲音必然大。萬物都是一個理。

甲：我家的字紙簍子也是嘴大脖子粗，為什麼它不叫喚哪？

乙：字紙簍是死物，那是竹子編的，不但不叫，連響都響不了。

甲：吹的笙也是竹子的，怎麼響呢？

乙：雖然竹子編的，因為它有窟窿有眼兒，有眼兒的就響。

甲：我家篩米的篩子盡是窟窿眼兒，怎麼吹不響？

這裡相聲演員乙，就一直試圖建立可以推廣的假設。可惜，甲總是用新的例證摧毀乙的三觀。

在四處碰壁後，可憐的機器跌跌撞撞地成長。看了許許多多的資料後，電腦逐漸有了自己對一些事情判斷的想法。我們把這種想法叫做模型。

之後，你就可以用模型去輔助自己做出明智的判斷了。

下面我們開始動手實踐。用Python做個決策樹出來，輔助我們判斷貸款風險。

準備

使用Python和相關軟體包，你需要先安裝Anaconda套裝。詳細的流程步驟請參考《如何用Python做詞雲》一文。

主管給你展示的這份貸款資料檔案，請從這裡下載。

檔案的副檔名是csv，你可以用Excel開啟，看看是否下載正確。

如果一切正常，請把它移動到我們們的工作目錄demo裡面。

到你的系統“終端”(macOS, Linux)或者“命令提示符”(Windows)下，進入我們的工作目錄demo，執行以下命令。

pip install -U PIL
複製程式碼

執行環境配置完畢。

在終端或者命令提示符下鍵入：

jupyter notebook
複製程式碼

Jupyter Notebook已經正確執行。下面我們就可以正式編寫程式碼了。

程式碼

首先，我們新建一個Python 2筆記本，起名叫做loans-tree。

為了讓Python能夠高效率處理表格資料，我們使用一個非常優秀的資料處理框架Pandas。

import pandas as pd
複製程式碼

然後我們把loans.csv裡面的內容全部讀取出來，存入到一個叫做df的變數裡面。

df = pd.read_csv('loans.csv')
複製程式碼

我們看看df這個資料框的前幾行，以確認資料讀取無誤。

df.head()
複製程式碼

因為表格列數較多，螢幕上顯示不完整，我們向右拖動表格，看錶格最右邊幾列是否也正確讀取。

經驗證，資料所有列都已讀入。

統計一下總行數，看是不是所有行也都完整讀取進來了。

df.shape
複製程式碼

執行結果如下：

(46508, 13)
複製程式碼

行列數量都正確，資料讀取無誤。

你應該還記得吧，每一條資料的最後一列safe_loans是個標記，告訴我們之前發放的這筆貸款是否安全。我們把這種標記叫做目標(target)，把前面的所有列叫做“特徵”(features)。這些術語你現在記不住沒關係，因為以後會反覆遇到。自然就會強化記憶。

下面我們就分別把特徵和目標提取出來。依照機器學習領域的習慣，我們把特徵叫做X，目標叫做y。

X = df.drop('safe_loans', axis=1)
y = df.safe_loans
複製程式碼

我們看一下特徵資料X的形狀：

X.shape
複製程式碼

執行結果為：

(46508, 12)
複製程式碼

除了最後一列，其他行列都在。符合我們的預期。我們再看看“目標”列。

y.shape
複製程式碼

執行後顯示如下結果：

(46508,)
複製程式碼

這裡的逗號後面沒有數字，指的是隻有1列。

我們來看看X的前幾列。

X.head()
複製程式碼

執行結果為：

注意這裡有一個問題。Python下做決策樹的時候，每一個特徵都應該是數值（整型或者實數）型別的。但是我們一眼就可以看出，grade, sub_grade, home_ownership等列的取值都是類別(categorical)型。所以，必須經過一步轉換，把這些類別都對映成為某個數值，才能進行下面的步驟。

那我們就開始對映吧：

from sklearn.preprocessing import LabelEncoder
from collections import defaultdict
d = defaultdict(LabelEncoder)
X_trans = X.apply(lambda x: d[x.name].fit_transform(x))
X_trans.head()
複製程式碼

執行結果是這樣的：

這裡，我們使用了LabelEncoder函式，成功地把類別變成了數值。小測驗：在grade列下面，B被對映成了什麼數字？

請對比兩個表格，思考10秒鐘。

答案是1。你答對了嗎？

下面我們需要做的事情，是把資料分成兩部分，分別叫做訓練集和測試集。

為什麼這麼折騰？

因為有道理。

想想看，如果期末考試之前，老師給你一套試題和答案，你把它背了下來。然後考試的時候，只是從那套試題裡面抽取一部分考。你憑藉超人的記憶力獲得了100分。請問你學會了這門課的知識了嗎？不知道如果給你新的題目，你會不會做呢？答案還是不知道。

所以考試題目需要和複習題目有區別。同樣的道理，我們用資料生成了決策樹，這棵決策樹肯定對已見過的資料處理得很完美。可是它能否推廣到新的資料上呢？這才是我們真正關心的。就如同在本例中，你的公司關心的，不是以前的貸款該不該貸。而是如何處理今後遇到的新貸款申請。

把資料隨機拆分成訓練集和測試集，在Python裡只需要2條語句就夠了。

from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_trans, y, random_state=1)
複製程式碼

我們看看訓練資料集的形狀：

X_train.shape
複製程式碼

執行結果如下：

(34881, 12)
複製程式碼

測試集呢？

X_test.shape
複製程式碼

這是執行結果：

(11627, 12)
複製程式碼

至此，一切資料準備工作都已就緒。我們開始呼喚Python中的scikit-learn軟體包。決策樹的模型，已經整合在內。只需要3條語句，直接呼叫就可以，非常方便。

from sklearn import tree
clf = tree.DecisionTreeClassifier(max_depth=3)
clf = clf.fit(X_train, y_train)
複製程式碼

好了，你要的決策樹已經生成完了。

就是這麼簡單。任性吧？

可是，我怎麼知道生成的決策樹是個什麼樣子呢？眼見才為實！

這個……好吧，我們們把決策樹畫出來吧。注意這一段語句內容較多。以後有機會我們們再詳細介紹。此處你把它直接抄進去執行就可以了。

with open("safe-loans.dot", 'w') as f:
     f = tree.export_graphviz(clf,
                              out_file=f,
                              max_depth = 3,
                              impurity = True,
                              feature_names = list(X_train),
                              class_names = ['not safe', 'safe'],
                              rounded = True,
                              filled= True )

from subprocess import check_call
check_call(['dot','-Tpng','safe-loans.dot','-o','safe-loans.png'])

from IPython.display import Image as PImage
from PIL import Image, ImageDraw, ImageFont
img = Image.open("safe-loans.png")
draw = ImageDraw.Draw(img)
img.save('output.png')
PImage("output.png")
複製程式碼

見證奇蹟的時刻到了：

你是不是跟我第一次看到決策樹的視覺化結果一樣，驚詫了？

我們其實只讓Python生成了一棵簡單的決策樹（深度僅3層），但是Python已經盡職盡責地幫我們考慮到了各種變數對最終決策結果的影響。

測試

欣喜若狂的你，在悄悄背誦什麼？你說想把這棵決策樹的判斷條件背下來，然後去做貸款風險判斷？

省省吧。都什麼時代了，還這麼喜歡背誦？

以後的決策，電腦可以自動化幫你完成了。

你不信？

我們隨便從測試集裡面找一條資料出來。讓電腦用決策樹幫我們判斷一下看看。

test_rec = X_test.iloc[1,:]
clf.predict([test_rec])
複製程式碼

電腦告訴我們，它調查後風險結果是這樣的：

array([1])
複製程式碼

之前提到過，1代表這筆貸款是安全的。實際情況如何呢？我們來驗證一下。從測試集目標裡面取出對應的標記：

y_test.iloc[1]
複製程式碼

結果是：

1
複製程式碼

經驗證，電腦通過決策樹對這個新見到的貸款申請風險判斷無誤。

但是我們不能用孤證來說明問題。下面我們驗證一下，根據訓練得來的決策樹模型，貸款風險類別判斷準確率究竟有多高。

from sklearn.metrics import accuracy_score
accuracy_score(y_test, clf.predict(X_test))
複製程式碼

雖然測試集有近萬條資料，但是電腦立即就算完了：

0.61615205986066912
複製程式碼

你可能會有些失望——忙活了半天，怎麼才60%多的準確率？剛及格而已嘛。

不要灰心。因為在整個兒的機器學習過程中，你用的都是預設值，根本就沒有來得及做一個重要的工作——優化。

想想看，你買一臺新手機，自己還得設定半天，不是嗎？面對公司的貸款業務，你用的竟然只是沒有優化的預設模型。可即便這樣，準確率也已經超過了及格線。

關於優化的問題，以後有機會我們們詳細展開來聊。

你終於擺脫了實習第一天就灰溜溜逃走的厄運。我彷彿看到了一顆未來的華爾街新星正在冉冉升起。

苟富貴，無相忘哦。

討論

貸款風險判斷之外，你覺得決策樹還有哪些用武之地？除了本文提到的決策樹，你還知道哪幾種用於分類的機器學習演算法？歡迎留言分享給大家，我們一起交流討論。

喜歡請點贊。還可以微信關注和置頂我的公眾號“玉樹芝蘭”(nkwangshuyi)。

如果你對資料科學感興趣，不妨閱讀我的系列教程索引貼《如何高效入門資料科學？》，裡面還有更多的有趣問題及解法。

Python機器學習：決策樹001什麼是決策樹
2020-12-24
Python機器學習
【Python機器學習實戰】決策樹和整合學習（一）
2021-08-19
Python機器學習
【Python機器學習實戰】決策樹和整合學習（二）——決策樹的實現
2021-08-25
Python機器學習
【機器學習】--決策樹和隨機森林
2018-03-27
機器學習隨機森林
還在頭疼每月房貸還款？這個房貸計算機讓你一目瞭然
2023-02-22
計算機
機器學習——決策樹模型：Python實現
2020-11-09
機器學習模型Python
機器學習：決策樹
2020-08-01
機器學習
機器學習用java還是python？
2021-09-11
機器學習JavaPython
機器學習——決策樹模型
2023-12-26
機器學習模型
機器學習之決策樹
2024-06-09
機器學習
小米消費金融也被牽扯到業如小貸“首付貸”專案
2022-01-15
機器學習之決策樹(Decision Tree)python實現
2018-06-12
機器學習Python
【Python機器學習實戰】決策樹與整合學習（三）——整合學習（1）
2021-08-30
Python機器學習
達觀智慧信貸解決方案，賦能貸前盡調、貸中稽核、貸後管理全流程
2021-09-29
機器學習之決策樹原理和sklearn實踐
2019-06-24
機器學習
機器學習之決策樹ID3(python實現)
2019-02-27
機器學習Python
《機器學習Python實現_09_02_決策樹_CART》
2020-05-27
機器學習Python
【Python機器學習實戰】決策樹與整合學習（四）——整合學習（2）GBDT
2021-09-03
Python機器學習
機器學習筆記（四）決策樹
2020-10-28
機器學習筆記
機器學習Sklearn系列：（三）決策樹
2021-07-16
機器學習
機器學習|決策樹-sklearn實現
2020-12-19
機器學習
面對“套路貸”借貸寶是如何處理的？
2020-04-16
國美金融是“持牌大戶”還是“違規大戶”：國美易卡貸超出現套路貸APP
2020-04-24
APP
機器學習 Day 9 | 決策樹基礎
2018-08-16
機器學習
機器學習之決策樹演算法
2019-07-28
機器學習演算法
“機器學習還是很難用！
2020-04-18
機器學習
機器學習：安全還是威脅？
2022-04-11
機器學習
【Python機器學習實戰】決策樹與整合學習（六）——整合學習（4）XGBoost原理篇
2021-09-11
Python機器學習
圖解機器學習 | 決策樹模型詳解
2022-03-10
圖解機器學習模型
決策樹在機器學習的理論學習與實踐
2018-03-29
機器學習
貸款借錢平臺貸款原始碼小額貸款系統卡卡貸原始碼小額貸款原始碼貸款平臺開發搭建
2024-05-29
原始碼
我用白話+案例給你講講機器學習中的決策樹
2018-11-16
機器學習
機器學習系列文章：貝葉斯決策理論
2018-09-22
機器學習
機器學習之使用sklearn構造決策樹模型
2019-07-30
機器學習模型
機器學習經典演算法之決策樹
2019-06-16
機器學習演算法
如何用Python和機器學習訓練中文文字情感分類模型？
2018-06-27
Python機器學習模型
機器學習之決策樹在sklearn中的實現
2019-03-06
機器學習
網貸管家
2019-05-11

貸還是不貸：如何用Python和機器學習幫你決策？

任務

決策

學習

準備

程式碼

測試

討論

相關文章