【機器學習PAI實踐四】如何實現金融風控

李博Garvin發表於2017-04-18

(本文資料為虛構,僅供實驗)

一、背景

本文將針對阿里雲平臺上圖演算法模組來進行實驗。圖演算法一般被用來解決關係網狀的業務場景。與常規的結構化資料不同,圖演算法需要把資料整理成首尾相連的關係圖譜。圖演算法更多的是考慮邊和點的概念。阿里雲機器學習平臺上提供了豐富的圖演算法元件,包括K-Core、最大聯通子圖、標籤傳播聚類等。
本文的業務場景如下:
下圖是已知的一份人物通聯關係圖,每兩個人之間的連線表示兩人有一定關係,可以是同事關係或者親人關係等。已知“Enoch”是信用使用者,”Evan”是欺詐使用者,計算出其它人的信用指數。通過圖演算法,可以算出圖中每個人是欺詐使用者的概率,這個資料可以方便相關機構做風控。

二、資料集介紹

資料來源:本文資料為自己生成,用於實驗。
具體欄位如下:

欄位名 含義 型別 描述
start_point 邊的起始節點 string
end_point 邊結束節點 string
count 關係緊密度 double 數值越大,兩人的關係越緊密

資料截圖:

三、資料探索流程

首先,實驗流程圖:

1.最大聯通子圖

最大聯通子圖的功能很好理解,前面已經介紹了,圖演算法的輸入資料是關係圖譜結構的。最大聯通子圖可以找到有通聯關係的最大集合,在團伙發現的場景中可以排除掉一些與風控場景無關的人。本次實驗通過“最大聯通子圖”元件將資料中的群體分為兩部分,並賦予group_id。通過“SQL指令碼”元件和“JOIN”元件去除下圖中的無關聯人員。

2.單源最短路徑

通過“單源最短路徑”元件探查出每個人的一度人脈、二度人脈關係等。distance講的是“Enoch”通過幾個人可以聯絡到目標人。
如下圖:

3.標籤傳播分類

“標籤傳播分類”演算法為半監督的分類演算法,原理是用已標記節點的標籤資訊去預測未標記節點的標籤資訊。在演算法執行過程中,每個節點的標籤按相似度傳播給相鄰節點。
呼叫“標籤傳播分類”元件除了要有所有人員的通聯圖資料以外,還要有人員打標資料。這裡通過“已知資料-讀odps”元件匯入打標資料(weight表示目標是欺詐使用者的概率):

通過SQL對結果進行篩選,最終結果展現的是每個人涉嫌欺詐的概率,數值越大表示是欺詐使用者的概率越大。

四、其它

參與討論:雲棲社群公眾號

免費體驗:阿里雲數加機器學習平臺

相關文章