包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

技術瑣話發表於2019-03-15

01

風險在哪裡


包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

1.1 信用風險

根據銀行業的風險理論,信用風險是指借款人因各種原因未能及時、足額償還債權人或銀行貸款而違約的可能性。

信用風險的風控重點在於,甄別客戶違約的原因究竟是還款能力,還是還款意願問題。如果客戶真的由於各方面的原因,暫時不具備還款能力,這是機率問題。即使發生了,處置起來也不會有什麼損失。而如果是還款意願問題,存在較大的資金損失機率。

1.2 欺詐風險

在風控中,欺詐風險比信用風險要大得多,所以反欺詐是重中之重。一般來說正常的客戶,如果不是刻意騙貸的,只是因為家裡出現突發事故、生意出現問題、暫時失業等等原因而導致資金週轉不過來而逾期的,這畢竟是少數,而且借款只是逾期,能夠還款的機率還是比較高。

消費金融行業絕大多數不良是因為欺詐引起的,如果反欺詐能夠比較有效的情況下,信用風險控制在5%以內沒有太大問題。

02

主要挑戰

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

消費金融發放的借款都就小額分散的,沒有任何抵押和擔保的情況。隨著消費金融行業的崛起和規模擴大,整個行業面臨的欺詐問題越來越嚴重,一批批的羊毛黨和欺詐等黑產團體接踵而來。黑產團隊的規模越大,意味著消費金融機構的損失越大。

欺詐風險目前是整體消費金融風控的重點,目前整個行業75%甚至以上的風險都是來自欺詐風險。形式有很多種,如常見的身份偽冒、中介黑產、偽造材料、惡意套現等。欺詐主體一是申請本人或親戚朋友,二是借用或盜用別人的身份資訊進行欺詐。欺詐主體的不同,防範風險的手段和形式也不同。

03

全生命週期管理

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

一個完整的風控平臺需要包括對借款申請全生命週期進行管理 ,是一個極為複雜的過程,每一個流程都會影響整體的風控質量。

04

架構實踐

4.1 業務架構

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

風控平臺是相對獨立的系統,信審的案件可以從借款端平臺推過來,也可以從第三方平臺推過來。信審案件到達風控平臺後,自動建立工作流,根據風控流程處理各流程環節任務。

• 自動決策

風控流程自動處理案件,訪問第三方合作伙伴的介面,獲取使用者黑名單、欺詐資料和多頭借貸等資料,查詢名單資料,決策引擎輸出各環節處理結果。自動決策後出三個結果,自動透過、轉人工、拒絕。

• 人工信審

根據決策引擎輸出的結果進行轉人工處理,人工透過初審和複核崗,給出具體信審結果,信審透過的案件給出風險等級和具體額度。

• 拒絕

被自動或者人工拒絕的案件通知到使用者,建議補充資料、過段時間重新申請或者推薦到第三方機構。

4.2 技術架構

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

4.2.1 分散式、微服務架構

分散式架構目前是網際網路行業成熟應用的架構,這裡不詳細討論。

微服務架構下,比較成熟的使用Spring Framework,使用MyBatis、Hibernate等資料對映框架。

4.2.2 RPC架構

RPC是分散式架構的核心,解決服務分佈和服務解耦問題,目前我們使用的是Dubbo, RPC框架解決序列化、反序列化、網路框架、連線池、收發執行緒、超時處理、狀態機等“業務之外”的重複技術勞動。

4.2.3 分散式訊息

分散式系統中重要的元件,解決應用耦合,非同步訊息,流量削鋒等問題,是分散式系統不可缺少的中介軟體。目前在生產環境,使用較多的訊息佇列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。

4.2.4 分散式快取

高併發環境下,大量的讀寫請求湧向資料庫,磁碟的處理速度與記憶體顯然不在一個量級,從減輕資料庫的壓力和提高系統響應速度兩個角度來考慮,一般都會在資料庫之前加一層快取。由於單臺機器的記憶體資源以及承載能力有限,並且,如果大量使用本地快取,也會使相同的資料被不同的節點儲存多份,對記憶體資源造成較大的浪費,因此,才催生出了分散式快取。常用的分散式快取是Redis。

4.2.5 分散式日誌

分散式情況下,每個日誌分散到各自服務所在機器,日誌的收集和分析需要統一處理。日誌框架主要這幾塊內容:

• 業務日誌埋點

• 日誌收集處理系統

• 日誌處理系統

• 日誌分析系統

ELK(ElasticSearch, Logstash, Kibana)平臺可以實現日誌收集、日誌搜尋和日誌分析的功能。

4.3 反欺詐平臺

目前的欺詐團伙已經形成完整的地下產業鏈,反欺詐平臺需要根據平臺沉澱的使用者資料、環境資料、第三方資料結合生物探針技術採集的本次使用者行為資料,建立使用者、環境、行為畫像以及基於使用者、環境、行為的關係網路,透過對業務資料建立多重模型來甄別對異常使用者的識別能力和反欺詐能力。

4.3.1 資料來源

資料來源主要是三個方向:

1. 使用者申請過程的填寫的資料和埋點時採集的行為資料和日誌資料。

2. 第三方合作資料,如人行徵信資料、學歷、多頭借貸等資料。

3. 網際網路上的資料,需要靠開發的爬蟲平臺去抓取。

資料分類主要以下幾類:

1. 身份資訊:姓名、身份證、手機號、卡號、居住地址、學歷等。

2. 信用資訊:收入資訊、借款資訊、帳戶資訊、還款和逾期資訊。

3. 社交資訊:通迅錄資訊、通話記錄、QQ和其它平臺互動資訊。

4. 消費資訊:銀行卡詳單、電商網站購買資訊等其它資訊。

5. 行為資訊:申請和填寫資訊、GPS、時間點、地點等資訊。

6. 第三方:多頭資訊、黑灰名單、授信資訊。

4.3.2 反欺詐模型

以上的多方面資料,可以根據對使用者行為、語義、關聯網路等組成一個巨大的資料關係圖譜。利用這些資料建立的模型風控體系對使用者的欺詐機率、還款風險等進行強有力的預測和判斷。

4.3.2.1 社交圖譜模型

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

利用“手機-裝置”及“手機-手機(通話)”關係,進行圖建模,所有使用者及外部已知風險手機號容納在一張圖中,透過圖中的風險標記以及圖中的異常關係結構。

使用者資料量上來的時候,社交關係很容易破億,這時候就要使用圖資料庫,相對成熟就是Neo4j,比易用性和穩定性來講Neo4j比orientdb和arangodb要好很多。

NEO4J資料庫,其可提供35億節點,當前2.5億多點,其中付費版支援無限節點,費用是6.8萬美元/年。

4.3.2.2 黑產攻擊模型

透過分析收集的高風險人群及中介通話資料,挖掘出一張高風險人群聯絡密切的關係網,有效識別申請動機不良的客戶,發現黑產攻擊苗頭。

4.3.2.3 多頭授信模型

透過對客戶與各類機構的通訊關係,發現一些體現多頭風險異常結構,如客戶總被一些催收機構聯絡,同時又在主動撥打其他一些機構的營銷電話。

4.3.2.4 頻次異常分析

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

欺詐團伙在發現系統規則漏洞時,往往會在短時間內發起大量欺詐交易,以便在受害者反應過來前儘快變現,例如醫美欺詐案,短時間內大量發起虛假的美容貸款請求。

這種交易的頻次常常會在時間分佈上形成異常的波形,透過ARIMA模型可以很好的預測事件的時間分部特徵,貝葉斯框架的生成式模型能夠解決不同空間分佈維度下細顆粒都的時間分佈問題。

透過這兩種手段可以將時間和空間分佈上存在異常的交易行為與正常的交易行為區分開來。

4.3.2.5 欺詐團伙發現

在網際網路金融行業,欺詐團伙日益嚴重並且難以防範。從特點上來看,團伙欺詐有如下幾個特點:

• 專業性。欺詐團伙通常會根據各平臺的風控規則,制定相應的欺詐手段;

• 多變性。欺詐團伙的欺詐手法經常變化,讓各平臺防不勝防;

• 爆發性。欺詐團伙一旦發現欺詐的可能性,會在短時間內,利用地下渠道獲得的身份資訊,大量反覆地欺詐;

團伙欺詐的發現是業務反欺詐領域面臨的一個重要挑戰。目前反團伙欺詐技術思路如下:

• 構成網路:將交易,交易資訊項(地址,電話,裝置id),使用者等定義為節點;同屬一個交易的節點間形成邊;對邊根據業務經驗或其他規則賦予權重;

• 特徵提取和資訊挖掘:提取網路飽和度,網路直徑,關聯度,中心度,群聚係數等特徵;基於已有的黑名單,利用社群發現等演算法得到節點的欺詐相關程度預測;

• 加入模型:提取的特徵可以作為模型或規則的輸入;

• 欺詐預警:在無標註資料的情況下,及時發現異常的網路拓撲結構,作為欺詐的早期預警;

4.3.2.6 評分模型

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

在消費金融反欺詐領域,各種欺詐特徵常以規則形式出現,透過一系列的規則的邏輯組合,排除有欺詐嫌疑的進件:

• 規則系統優點:可解釋性強,可以迅速調整,應對欺詐手段變化;

• 規則系統缺點:複雜的規則體系難於維護,難以利用弱特徵,對強特徵依賴,容易被攻破;

評分模型:評分模型在金融領域應用相當成熟,信用評分模型是最常見的應用。但公司將評分模型應用到反欺詐場景時常常與信用評分混淆,但本質上,二者的預測目標是不同的,反欺詐模型預測的是欺詐的可能性,信用模型預測的是還款的可能性。因此建立獨立的反欺詐評分模型很有必要。

反欺詐評分模型有如下優點:

• 可以充分利用弱特徵;

• 對抗性好,模型結構由一系列弱特徵決定,提高欺詐者偽裝成本;

反欺詐評分模型和反欺詐規則系統有很好的互補性,在風控平臺中,同時建立起反欺詐規則系統和評分模型很有必要。

4.4 變數平臺

反欺詐模型和信用模型兩個模型體系裡,最基礎的需要先加工出風控變數,根據基礎資訊、關聯關係、信用歷史、裝置資訊、社交資料以及消費和交易資料等六大緯度加工出數百、數千或者數萬個變數。輸出給模型進行計算和決策。

基於實時決策的風控流程需要對資料和大部分變數加工有實時性要求。隨著資料量越來越大,傳統關係資料無法解決實時和效率的問題,基於Hadoop平臺的解決方案成為變數平臺的方案。

包銀消費CTO湯向軍:消費金融大資料風控架構與實踐

4.4.1 資料來源

• 實時日誌採集:

業務埋點在流程處理中把風控需要的資料列印到日誌中。

Flume從日誌採集的資料放入kafka訊息佇列中。

• 實時日誌採集:

透過Canal分析mysql的bilog日誌,放到kafka中。

4.4.2 資料加工

Spark streaming處理時效只能達到準實時,所以變數加工採用Storm方案。Storm可以達到低延遲的響應,在秒級或者毫秒級完成分析、並得到響應,而且體系能夠隨著資料量的增大而擴充。

05

總結

消費金融行業這兩年規模增長比較快,主要是基於線上的小額分散的借款。一定程度上無法有效和及時的識別真正的客戶,某些消費場景內面對欺詐團伙和黑產需要建立有效和多種風控手段和模型。

基於大資料的風控和反欺詐模型起步也沒有幾年,大部分公司都在逐步完善和成熟的過程,基於機器學習的風險模型也都在大量的投入和嘗試。需要從大資料上進行挖掘、分析和建模,利用使用者身份資料、行為資料、外部資料和黑產資料建立反欺詐平臺、規則和欺詐關聯網路來提高反欺詐能力和風險

識別能力。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562044/viewspace-2638518/,如需轉載,請註明出處,否則將追究法律責任。

相關文章