網際網路金融風控中的資料科學

IT大咖說發表於2019-02-27

網際網路金融風控中的資料科學

內容來源:2016年12月16日,宜人貸資料部資料科學家王婷在“GIAC全球網際網路架構大會”進行《網際網路金融風控中的資料科學》演講分享。IT大咖說作為獨家視訊合作方,經主辦方和講者審閱授權釋出。
閱讀字數:2565 | 4分鐘閱讀
網際網路金融風控中的資料科學

摘要

隨著網際網路行業的高速發展,網際網路金融應運而生。它是傳統金融行業與網際網路精神相結合的新興領域。網際網路"開放、平等、協作、分享"的精神往傳統金融業態滲透,對人類金融模式產生根本影響。宜人貸資料部資料科學家王婷根據自己在行業的實踐經驗和專業知識,從三方面來分享網際網路金融風控中的資料科學。

嘉賓演講視訊和PPT地址:t.cn/R9i3oYG

背景

有了網際網路之後,大家可以線上上進行理財借款。但是從線下轉到線上會出現不同的問題和挑戰,比如風險,我們會面臨各種各樣的信用風險和欺詐風險。

傳統金融面臨的信用風險比較大,主要是還款能力的問題。而線上上進行欺詐普遍是利用一些黑科技,國內的欺詐手段非常的複雜。

傳統風控都是使用一些基於規則的風控手段。線上隨著使用者量和資料量越來越大,我們會使用一些資料科學技術進行線上反欺詐中規則的提取或智慧欺詐風險發現。

網際網路金融服務面臨的風險

網際網路金融——個人對個人的信用貸款

網際網路金融除了借款人群還有出借人群,也就是我們常說的理財。它會給我們提供資金,這些資金會轉化成債權去借給需要借貸的人群。

在這過程中宜人貸的理財APP可以很方便地在移動端進行操作,背後的流程簡易,使使用者體驗好,完成了出借到借款的全方位資訊服務。

宜人貸:極速信任——自動化信用評估。

網路信貸對速度的要求非常高,到銀行或線下門店辦理貸款可能需要幾天甚至幾周的時間;但線上上的APP端提供完資料後,經過分鐘級自動化的稽核,當日就能收到貸款。網路信貸就是在服務那部分不能被線下服務所滿足的需要快速借貸的人群。

線上上,從客戶獲取到信用評估、交易促成以及客戶服務,在整個流程中我們獲取到的資料、場景或者人群都和傳統金融有著很大區別。銀行採取的是信貸員模式,而在網際網路金融中,我們是以一種線上信貸工廠的模式,快速經過系統的風控體系稽核,就可以批貸。這其中欺詐風險控制成為我們最大的一個挑戰。

網際網路金融行業中的風險

信用風險:主要問題是使用者的還款能力。業界常用的解決方法是通過收集收入水平、消費水平、負債情況等對使用者進行風險評分。但在國內沒有權威的徵信機構來提供這些資料,對於網際網路金融公司來說,收集這樣的資料難度非常大。而且傳統評分卡的有效特徵挖掘非常困難。

欺詐風險:欺詐風險包含了偽冒申請和欺詐交易。傳統的應對方法是使用人工審查、信用黑名單或是基於規則的一些方法。這樣做的缺點是效率太低,,沒有權威的黑名單,欺詐手段更新太快,不能自動發現異常。

知識圖譜在金融風控中的應用場景

網際網路金融中的風控是一種機器學習的過程

網際網路金融中風控和機器學習一樣要定義Y目標和X變數。

Y目標和普通機器學習Y目標的區別就在於正負比例非常懸殊。好、壞使用者的定義,好使用者和壞使用者的佔比遠遠高於10:1,在使用機器學習訓練的時候會造成較大偏差影響。

X變數會進行特徵工程的處理。傳統方法是進行人工特徵工程,當我們引入圖譜特徵挖掘技術後,可以使用知識圖譜技術和圖挖掘技術,有效提取欺詐風險的特徵。對於X變數有一個風險控制資料金字塔。最頂層的信用是對使用者評估最有效的資料維度。自上往下的信用、消費、通訊、社交、行為,變數的有效性逐漸削弱,而從下往上資料的覆蓋度逐漸減小。

知識圖譜在金融反欺詐中的優勢

傳統反欺詐大多從客戶資料出發,看客戶是否觸碰了黑名單、消費記錄是否有異常。

利用知識圖譜進行反欺詐,還會關注使用者的關聯關係,例如客戶的一度、二度關係是否觸黑,消費的關聯商家是否異常。還可以快速發現一機多人的情況,以及識別組團欺詐。

構建金融知識圖譜:FinGraph

FinGraph包含了10種實體、數億節點。從系統底層的資料整合層面進行信用資料、金融消費資料、行為資料、社交資料、網路安全、第三方資料等一些資料的整合,然後進行特徵工程、模型開發、異常監控。知識圖譜的應用場景有反欺詐、智慧搜尋、貸後管理、營銷分析以及運營支撐等等。這一套體系不僅可以服務於反欺詐,還能服務於網際網路金融中的運營層面。

反欺詐分析實踐:人以群分

資料顯示,與壞使用者有大量關聯的借款使用者的壞賬率是未關聯使用者的2.9倍。這樣的特徵可以直接用來做規則的變數。

從整體借款群體的角度,用PageRank演算法探索哪些使用者與大量借款使用者有關聯關係。PageRank值越高,使用者資質就越差。對特徵進行分組處理後,可見PageRank高分段使用者的壞賬率是低分段使用者的3.3倍,可以幫助我們去甄別一些欺詐或資質較差的使用者。

反欺詐分析實踐:識別組團欺詐風險

在整個網路中應用社群發現演算法將人群進行聚類,把分群后的群體根據好壞使用者比例打上標籤,實時評估每個使用者的組團欺詐風險。

欺詐案例調查的挑戰:失聯使用者找尋

利用網路挖掘手段發現壞使用者和哪些使用者的行為相似,可以聚在同一個類別中,然後在社群內使用最短路徑演算法來發現失聯使用者與一個正常還款使用者的關係鏈。

風控建模中的資料科學

網際網路金融風控中的資料科學

在整個風控中,它是一個標準的機器學習流程。除了樣本和資料與普通網際網路機器學習不一樣之外,其它基本都是一致的。

唯一和傳統機器學習不同的是,金融模型或產出的特徵需要有很強的解釋含義。

大規模金融服務中的實時架構

FinGraph是實時風險監控的重要支撐

我們搭建了一套實時資料採集的平臺,包括flume叢集、kafka叢集,到圖資料庫實時讀寫,以及包含一些離線風險特徵的、在HBase和Codis中的儲存。應用於風控規則、反欺詐服務和實時欺詐監控。資料在採集、傳輸、儲存時能達到99.999%的可靠性。基於實時資料採集平臺和圖資料庫,可實時捕捉風險特徵,控制欺詐風險。

FinGraph是線上風險控統中關鍵的一環

網際網路金融風控中的資料科學

總結:資料科學在網際網路金融風控中發揚

圖挖掘技術可以把風控工作,從區域性考量提升到全域性考量。結合了上億節點和十億關聯關係知識圖譜的能力,可以區分出高風險欺詐人群。也能利用圖挖掘技術實時發現一些組團欺詐風險。

資料科學已經逐漸滲透到離線建模流程中的多個環節。知識圖譜也成為線上風控系統中的關鍵一環。

今天要分享的就是這些,謝謝大家!

網際網路金融風控中的資料科學


相關文章