黑產,大家並不陌生了。目前有超過1000萬+的身份資訊被濫用,超過200萬+的黑產從業者,超千億的市場規模。今天就跟著我們的嘉賓一起來看一看圖分析在風控業務中的應用。
現狀
與企業做活動的目的背道而馳 企業因為羊毛黨的介入而產生大量的損失
貓池養卡
裝置農場
身份冒用
方案
面對有規模的黑色產業鏈,我們要採取怎樣的風控方案呢?
我們的整個業務防控流程是一個漏斗狀的模式。由上至下包括:
裝置識別層
快速識別層
深度識別層
模型層
決策層
模型層方案
模型層的方案主要分為兩大類可解釋模型和深度學習模型。
可解釋模型
以決策樹和邏輯迴歸等為方案的類規則引擎的傳統機器學習模型。
優缺點主要表現在:
產生的規則可控可解釋 可加入專家知識進行補充 簡單易操作 對新型別欺詐缺乏檢測能力,規則需要定期維護
深度學習模型
以神經網路等為方案的深度學習模型。
優缺點主要表現在:
基於歷史資料可動態調整規則 在很多領域被實踐證明有效,且效果好於規則引擎 大部分方法的過程不具解釋性 需要大量歷史資料和標籤資料
不管哪種機器學習方案,其針對的都是單條的資料(在不考慮圖嵌入的情況下),但當前的欺詐行為大多數都是團伙作案,所以透過圖分析方法可以來識別這些欺詐團伙。
團伙識別的分析物件為複雜網路,指由數量巨大的節點和節點之間錯綜複雜的關係共同構成的網路結構。複雜網路的研究是現今科學研究中的一個熱點,與現實中各類高複雜性系統,如的網際網路、神經網、社會網路、蛋白質網、航班網的研究有密切關係。主要是區別於簡單網路,如晶格網路,隨機圖等結構所不具備的特性。
一個圖 G =(V, E) 由一些點及點之間的連線(稱為邊)構成,V、E分別為 G 的點集合和邊集合。在圖的概念中,點的空間位置,邊的區直長短都無關緊要,重要的是其中有幾個點以及那些點之間有邊相連。
圖的性質和概念有很多,我們在識別羊毛黨這個場景裡主要關注三個概念。一是無向網路,無向網路主要關注兩個節點之間有無連通關係。
二是異構網路,如上圖所示,不同節點有不同的屬性。比如使用者的一次行為可以包含很多屬性,比如手機號、IP地址、裝置資訊等。我們會將一次使用者請求放入圖中,透過屬性資訊關聯起來。
第三個概念是二度關聯。圖中如果兩個節點連通,要透過多少中間節點才能到達。透過的中間節點越少,兩個節點的關係越緊密,反之則關係越鬆散。一般來說,用傳統流量的方法來進行統計都是一度的統計。比如同手機號多賬號的情況。而圖不同,可以做無限遞迴,比如同手機號關聯多個賬號,可以再往外擴節點,比如這些賬號還有沒有關聯其他手機號,可以層層往外關聯。
社群發現是一種常常被用於客戶精準營銷的無監督聚類演算法,根據客戶各個維度的資訊,將其歸併於某一特定群組,並對不同群組的客戶採取差異化的營銷策略。除了用於精準營銷,分群演算法還可以用於離群行為的檢測,即,檢測哪些客戶的行為與同一群體的其他客戶不同。這些離群行為或是預示著這些客戶處於某些特殊事件情境中,或是預示著欺詐行為。
基於標號傳播
形成圖的關聯關係之後,會有一些好的標籤和不好的標籤(白和黑)。然後讓節點自然的往外擴充,擴充的方法是“近朱者赤,近墨者黑”。我們可以簡單的認為,跟白的關聯的則是好的,跟黑關聯的是壞的,既關聯白又關聯黑的則根據權重計算。
實現簡單,執行速度快,可應用在大型網路中
本質上也是最佳化模組度的方法 缺點是穩定性不高,且收斂上也有問題
該方法的特點是將點和點之間的邊做一個權重的設定。比如手機號和IP,IP的權重會低一些,手機號等同於一個賬號,權重會高一些。以最佳化模組度作為目標,只是有很多種迭代的方式,包括聚合、分裂和直接尋優。聚合的代表演算法是FN、CNM等、分裂的是GN演算法、直接尋優的都是用群體智慧的那一堆演算法,包括GA、PSO等。
實現效果很快速
形成的社群相對比較穩定 設定權重會加入一些專家經驗,具有一定的可解釋性
先形成一個大的子圖,再隨機生成一些小的社群,然後在整個圖中做隨機遊走和遍歷。比較經典的是DeepWalk 的隨機遊走演算法,借鑑的是語義分析中詞向量的表達。本質上也是圖嵌入的一種,有論文表明該方法是目前非重疊社團發現中準確度最高的。
無論是哪種方法,本質上還是希望將社群內資訊更加緊密,社群與社群之間做到足夠鬆散。
針對業務風控團伙識別方案,主要分為3個大的步驟,分別是:
構建置信網路 切分連通子圖並計算社群團伙 計算節點屬性並落地
置信網路
置信網路是指點之間的邊都是“強”連線的邊,理論上一次請求最多隻有節點型別個節點個數,所以從單子圖來看,超過該節點個數為可疑節點,且超過指定閾值的可直接判斷為異常。
我們可以看到會有一些節點周圍聚集了很多的節點,一般情況下正常的使用者是不太可能形成這種模式的。很大程度上這樣的模式是黑灰產團伙的行為。
對置信網路的子圖切分可以初步區分正常節點(子圖節點大小小於等於節點型別大小)和可疑節點(子圖節點大小超過一定閾值)。對於單個子圖內部,度大的節點可以視為該子圖的“中心”節點,可重點關注。
對單個子圖進行社群發現,可以對較大的子圖進行進一步的切割,發現其中的社群聚合規律。本方案是用的 Louvain 社群發現方法,該方法在執行時長和效果上均優於其它方法(對比結果見附頁)。Louvain 方法本質上是序列的迭代方法,並行化改造會降低其聚合效果,本方案採用的是單節點單子圖的序列計算方式。
我們看一個常規的案例,1 天內同終端多手機號規則閾值是10,第 11 個賬戶開始被拒絕,本例同終端共登入 33 個手機號,規則攔截 23 個,準確率 100%。透過圖關聯7天的資料發現這個集合共 46 個手機號,規則覆蓋率 50%,關聯補充的 13 個手機號中有 3 個命中其他的拒絕規則,另外 10 個手機號沒有觸發規則,圖關聯方式識別欺詐,可以補充手機號 43.47%。
另一個案例,根據置信構建中的要素構建的圖關聯,在人工分析後發現新的衍生特徵:同GPS(.563582,.001250 )多賬戶,識別出一個新的模擬器。
還可以進行裝置偽造識別,IOS 系統設定的節點包括 did、idfv、idfa,安卓是did、UUID、imei。理論上說,一個使用者裝置的這三個值應該是比較穩定的,不會有其他的節點與之相關聯。所以一個使用者請求會產生兩到三個這樣的裝置節點,並且不太會有叢集的情況。
那麼像上圖中存在關聯的情況,關聯的節點越多,存在的裝置風險就越高。比如:
Ios:1個IDFA+appname關聯多個did(故意篡改did)
Android:1個uuid關聯大於2個imei(故意篡改imei)
左上角的圖中一些帶顏色的圈,裡面的裝置資訊非常的多,形成了非常明顯的集合,這很大可能都是風險使用者了。而右下角的圖中黃色圈內的一些節點,相對來說沒有那麼高的風險。
我們再看一個拉新的業務場景。透過微信轉發拉新使用者,邀請 3 個新使用者關注並註冊,獎勵 1 元紅包;邀請 10 個使用者關注並註冊,獎勵 5 元紅包。黑產為了使得收益最大化,它的拉新關係偏向於下圖中圖例2的模式,而正常使用者更偏向於圖例1的情況。
因為像黑產為了最大化利益會拉滿 10 個人得五塊錢是最划算的。重複使用手機號的個數不能太多,多了容易被發現。而正常使用者則是,有的會願意完成任務,有的不願意,有的完成的少。
所以我們可以結合使用者的行為、裝置的一些資訊以及我們對業務的觀察和了解來進行圖分析,對於業務風控的價值還是很值得挖掘的。
活動回放連結:http://mudu.tv/watch/5232060