風控沙龍 | 圖分析方法在業務風控中的應用

極驗發表於2020-04-28
風控沙龍 | 圖分析方法在業務風控中的應用

分享嘉賓:徐竑  平安科技安全產品專家

內容來源:極驗俠客行——業務安全反欺詐線上直播

黑產,大家並不陌生了。目前有超過1000萬+的身份資訊被濫用,超過200萬+的黑產從業者,超千億的市場規模。今天就跟著我們的嘉賓一起來看一看圖分析在風控業務中的應用。

現狀

首先來看一個業務場景,比如網際網路上的營銷活動。很多網際網路平臺為了拉新留存,提高使用者活躍度,都會採取一些營銷活動或者策略,包括註冊送紅包、送優惠券等。這些活動會吸引來大量的薅羊毛使用者,也就是羊毛黨。他們透過批次操作或者平臺的漏洞來大量領取企業或者平臺提供的福利。而其最大的危害在於:
  • 與企業做活動的目的背道而馳
  • 企業因為羊毛黨的介入而產生大量的損失
所以我們開始關注這塊業務風控的問題。

黑產批次操作的一些手段包括:
  • 貓池養卡
貓池實際上就是養卡裝置。即一個號碼卡插槽,可以在不插卡的情況下將整張卡插到貓池裡,連線電腦後使用,還可以接收簡訊驗證碼。
  • 裝置農場
群控軟體可以幫助黑產同時操作多臺手機,目前的農場可以直接十萬級甚至百萬的手機同時操作,偽裝成網際網路使用者進行各種欺詐。
  • 身份冒用
欺詐者透過黑產網路購買使用者身份證、銀行卡資料、冒用他人身份,盜用他人賬戶進行欺詐。

方案

面對有規模的黑色產業鏈,我們要採取怎樣的風控方案呢?

風控沙龍 | 圖分析方法在業務風控中的應用

我們的整個業務防控流程是一個漏斗狀的模式。由上至下包括:

  • 裝置識別層
在裝置端完成計算,直接識別一些黑產裝置和環境。比如是不是模擬器,裝置是不是裝了黑產需要的外掛(修改GPS等)。
  • 快速識別層
黑白名單或者標籤,快速放過或者拒絕,減輕後續壓力。
  • 深度識別層
專家規則,做一些地域分析,簡單的同IP分析,手機號分析等。根據專家分析經驗配置各種風險識別策略。
  • 模型層
會做一些模型部署在風控的整個鏈路上面,非同步構造多種請求資料的特徵,利用更復雜的模型進行風險識別。
  • 決策層
最後就是利用上面層層分析的結果,可以進行決策。比如風險最高為輸出或者進行一些權重計算,最終得到一個風險決策。

圖分析在我們這裡,主要是放在模型層。

模型層方案

模型層的方案主要分為兩大類可解釋模型和深度學習模型。

可解釋模型

以決策樹和邏輯迴歸等為方案的類規則引擎的傳統機器學習模型。

風控沙龍 | 圖分析方法在業務風控中的應用


優缺點主要表現在:

  • 產生的規則可控可解釋
  • 可加入專家知識進行補充
  • 簡單易操作
  • 對新型別欺詐缺乏檢測能力,規則需要定期維護

深度學習模型

以神經網路等為方案的深度學習模型。

風控沙龍 | 圖分析方法在業務風控中的應用

優缺點主要表現在:

  • 基於歷史資料可動態調整規則
  • 在很多領域被實踐證明有效,且效果好於規則引擎
  • 大部分方法的過程不具解釋性
  • 需要大量歷史資料和標籤資料

關聯分析

不管哪種機器學習方案,其針對的都是單條的資料(在不考慮圖嵌入的情況下),但當前的欺詐行為大多數都是團伙作案,所以透過圖分析方法可以來識別這些欺詐團伙。

團伙識別的分析物件為複雜網路,指由數量巨大的節點和節點之間錯綜複雜的關係共同構成的網路結構。複雜網路的研究是現今科學研究中的一個熱點,與現實中各類高複雜性系統,如的網際網路、神經網、社會網路、蛋白質網、航班網的研究有密切關係。主要是區別於簡單網路,如晶格網路,隨機圖等結構所不具備的特性。

風控沙龍 | 圖分析方法在業務風控中的應用

圖簡介

一個圖 G =(V, E) 由一些點及點之間的連線(稱為邊)構成,VE分別為 G 的點集合和邊集合。在圖的概念中,點的空間位置,邊的區直長短都無關緊要,重要的是其中有幾個點以及那些點之間有邊相連。

圖的性質和概念有很多,我們在識別羊毛黨這個場景裡主要關注三個概念。一是無向網路,無向網路主要關注兩個節點之間有無連通關係。

風控沙龍 | 圖分析方法在業務風控中的應用

二是異構網路,如上圖所示,不同節點有不同的屬性。比如使用者的一次行為可以包含很多屬性,比如手機號、IP地址、裝置資訊等。我們會將一次使用者請求放入圖中,透過屬性資訊關聯起來。

第三個概念是二度關聯。圖中如果兩個節點連通,要透過多少中間節點才能到達。透過的中間節點越少,兩個節點的關係越緊密,反之則關係越鬆散。一般來說,用傳統流量的方法來進行統計都是一度的統計。比如同手機號多賬號的情況。而圖不同,可以做無限遞迴,比如同手機號關聯多個賬號,可以再往外擴節點,比如這些賬號還有沒有關聯其他手機號,可以層層往外關聯。

圖分析

社群發現是一種常常被用於客戶精準營銷的無監督聚類演算法,根據客戶各個維度的資訊,將其歸併於某一特定群組,並對不同群組的客戶採取差異化的營銷策略。除了用於精準營銷,分群演算法還可以用於離群行為的檢測,即,檢測哪些客戶的行為與同一群體的其他客戶不同。這些離群行為或是預示著這些客戶處於某些特殊事件情境中,或是預示著欺詐行為。

基於標號傳播

形成圖的關聯關係之後,會有一些好的標籤和不好的標籤(白和黑)。然後讓節點自然的往外擴充,擴充的方法是“近朱者赤,近墨者黑”。我們可以簡單的認為,跟白的關聯的則是好的,跟黑關聯的是壞的,既關聯白又關聯黑的則根據權重計算。

風控沙龍 | 圖分析方法在業務風控中的應用

  • 實現簡單,執行速度快,可應用在大型網路中
  • 本質上也是最佳化模組度的方法
  • 缺點是穩定性不高,且收斂上也有問題

基於模組度

該方法的特點是將點和點之間的邊做一個權重的設定。比如手機號和IP,IP的權重會低一些,手機號等同於一個賬號,權重會高一些。以最佳化模組度作為目標,只是有很多種迭代的方式,包括聚合、分裂和直接尋優。聚合的代表演算法是FN、CNM等、分裂的是GN演算法、直接尋優的都是用群體智慧的那一堆演算法,包括GA、PSO等。

風控沙龍 | 圖分析方法在業務風控中的應用


  • 實現效果很快速
  • 形成的社群相對比較穩定
  • 設定權重會加入一些專家經驗,具有一定的可解釋性
基於資訊理論

先形成一個大的子圖,再隨機生成一些小的社群,然後在整個圖中做隨機遊走和遍歷。比較經典的是DeepWalk 的隨機遊走演算法,借鑑的是語義分析中詞向量的表達。本質上也是圖嵌入的一種,有論文表明該方法是目前非重疊社團發現中準確度最高的。

風控沙龍 | 圖分析方法在業務風控中的應用

無論是哪種方法,本質上還是希望將社群內資訊更加緊密,社群與社群之間做到足夠鬆散。

圖分析方案

針對業務風控團伙識別方案,主要分為3個大的步驟,分別是:

  • 構建置信網路
  • 切分連通子圖並計算社群團伙
  • 計算節點屬性並落地
風控沙龍 | 圖分析方法在業務風控中的應用置信網路

置信網路是指點之間的邊都是“強”連線的邊,理論上一次請求最多隻有節點型別個節點個數,所以從單子圖來看,超過該節點個數為可疑節點,且超過指定閾值的可直接判斷為異常。


風控沙龍 | 圖分析方法在業務風控中的應用

如圖所示,紅色的節點是手機號,周邊的節點有 GPS、imei、ip 地址等。下圖是分析的理論結果。
風控沙龍 | 圖分析方法在業務風控中的應用

我們可以看到會有一些節點周圍聚集了很多的節點,一般情況下正常的使用者是不太可能形成這種模式的。很大程度上這樣的模式是黑灰產團伙的行為。

切分連通子圖
對置信網路的子圖切分可以初步區分正常節點(子圖節點大小小於等於節點型別大小)和可疑節點(子圖節點大小超過一定閾值)。對於單個子圖內部,度大的節點可以視為該子圖的“中心”節點,可重點關注。

風控沙龍 | 圖分析方法在業務風控中的應用

社群發現
對單個子圖進行社群發現,可以對較大的子圖進行進一步的切割,發現其中的社群聚合規律。本方案是用的 Louvain 社群發現方法,該方法在執行時長和效果上均優於其它方法(對比結果見附頁)。Louvain 方法本質上是序列的迭代方法,並行化改造會降低其聚合效果,本方案採用的是單節點單子圖的序列計算方式。
風控沙龍 | 圖分析方法在業務風控中的應用
價值

我們看一個常規的案例,1 天內同終端多手機號規則閾值是10,第 11 個賬戶開始被拒絕,本例同終端共登入 33 個手機號,規則攔截 23 個,準確率 100%。透過圖關聯7天的資料發現這個集合共 46 個手機號,規則覆蓋率 50%,關聯補充的 13 個手機號中有 3 個命中其他的拒絕規則,另外 10 個手機號沒有觸發規則,圖關聯方式識別欺詐,可以補充手機號 43.47%。

風控沙龍 | 圖分析方法在業務風控中的應用

另一個案例,根據置信構建中的要素構建的圖關聯,在人工分析後發現新的衍生特徵:同GPS(.563582,.001250 )多賬戶,識別出一個新的模擬器。

風控沙龍 | 圖分析方法在業務風控中的應用

還可以進行裝置偽造識別,IOS 系統設定的節點包括 did、idfv、idfa,安卓是did、UUID、imei。理論上說,一個使用者裝置的這三個值應該是比較穩定的,不會有其他的節點與之相關聯。所以一個使用者請求會產生兩到三個這樣的裝置節點,並且不太會有叢集的情況。

風控沙龍 | 圖分析方法在業務風控中的應用

那麼像上圖中存在關聯的情況,關聯的節點越多,存在的裝置風險就越高。比如:

  • Ios:1個IDFA+appname關聯多個did(故意篡改did)

  • Android:1個uuid關聯大於2個imei(故意篡改imei)

風控沙龍 | 圖分析方法在業務風控中的應用

左上角的圖中一些帶顏色的圈,裡面的裝置資訊非常的多,形成了非常明顯的集合,這很大可能都是風險使用者了。而右下角的圖中黃色圈內的一些節點,相對來說沒有那麼高的風險。

我們再看一個拉新的業務場景。透過微信轉發拉新使用者,邀請 3 個新使用者關注並註冊,獎勵 1 元紅包;邀請 10 個使用者關注並註冊,獎勵 5 元紅包。黑產為了使得收益最大化,它的拉新關係偏向於下圖中圖例2的模式,而正常使用者更偏向於圖例1的情況。

風控沙龍 | 圖分析方法在業務風控中的應用

因為像黑產為了最大化利益會拉滿 10 個人得五塊錢是最划算的。重複使用手機號的個數不能太多,多了容易被發現。而正常使用者則是,有的會願意完成任務,有的不願意,有的完成的少。

所以我們可以結合使用者的行為、裝置的一些資訊以及我們對業務的觀察和了解來進行圖分析,對於業務風控的價值還是很值得挖掘的。

相關文章