【機器學習PAI實踐六】金融貸款發放預測

李博Garvin發表於2017-05-10

一、背景

很多農民因為缺乏資金,在每年耕種前會向相關機構申請貸款來購買種地需要的物資,等豐收之後償還。農業貸款發放問題是一個典型的資料探勘問題。貸款發放人通過往年的資料,包括貸款人的年收入、種植的作物種類、歷史借貸資訊等特徵來構建經驗模型,通過這個模型來預測受貸人的還款能力。
本文藉助真實的農業貸款業務場景,利用迴歸演算法解決貸款發放業務。 線性迴歸,是利用數理統計中迴歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。本文通過農業貸款的歷史發放情況,預測是否給預測集的使用者發放他們需要的金額的貸款。

二、資料集介紹

具體欄位如下:

欄位名 含義 型別 描述
id 資料唯一識別符號 string
name 使用者名稱 string
region 使用者所屬地區 string 從北到南排列
farmsize 擁有土地大小 double 土地面積
rainfall 降雨量 double 降雨量
landquality 土地質量 double 土地質量數值越大越好
farmincome 收入 double 年收入
maincrop 種植作物 string 種植作物的種類
claimtype 貸款型別 string 兩種
claimvalue 貸款金額 double 貸款金額

資料截圖:

三、資料探索流程

首先,實驗流程圖:

1.資料來源

資料的輸入有兩部分,貸款訓練集用來進行迴歸模型的訓練,共二百條資料,是歷史貸款資料,包括一些farmsize、rainfall等特徵,claimvalue是貸款收回的金額。貸款預測集是今年申請貸款者,claimvalue是農民申請的貸款金額,共71人。我們通過已有的二百多條歷史資料,預測給七十一人中的哪些申請貸款人發放貸款。

2.特徵工程

將一些字串型別的資料,根據他們的含義對映成數字。比如說region欄位,我們將其中的north、middle、south按照從北到南的順序分別對映成0、1、2。然後通過型別轉換將欄位轉換成double型別,這樣就可以進行下面的迴歸計算了。

如下圖:

3.迴歸及預測

線性迴歸元件對於歷史資料訓練並生成迴歸模型,在預測元件中利用迴歸模型對於預測集資料進行了預測。通過合併列元件將使用者ID、預測值、申請的貸款值合併。預測值表示的是使用者的還貸能力(預期可以歸還的金額)。

4.迴歸模型評估

通過迴歸模型評估元件對於迴歸模型進行評估。

5.發放貸款人

通過過濾與對映元件篩選出可以獲得貸款的人,這裡的業務邏輯是針對每個客戶,如果他被預測得到的還款能力大於他申請貸款的金額,就對他發放貸款。

四、其它

關注作者微信公眾號:

參與討論:雲棲社群公眾號

免費體驗:阿里雲數加機器學習平臺

相關文章