直播回顧|關聯網路如何反團伙欺詐——標準答案版

頂象技術發表於2022-11-16

11月10日下午15:00頂象資料科學家翼龍帶來主題為《關聯網路技術在業務安全中的應用》的直播。

直播內容包括常見的團伙欺詐場景、關聯網路在反團伙欺詐中的作用、關聯網路的技術框架,並就關聯圖譜構建和複雜網路演算法展開了具體的討論,最後以案例的形式形象地展示瞭如何將關聯網路技術應用到實際的業務中去。

團伙欺詐具備哪些特徵?

伴隨著移動網際網路等技術的發展以及新型支付方式的普及,出現了越來越多有著明確分工和縝密作戰計劃的欺詐團伙,他們嫻熟運用各類技術升級欺詐手段,從線下到線上對各個業務場景展開立體化的攻擊,對業務安全帶來了挑戰。

2019年3月,南京鼓樓警方通報稱,近日警方打掉了一個專門騙取銀行貸款的團伙,抓獲嫌疑人7名,涉案金額近百萬元。經調查該詐騙團伙已形成了完整的犯罪鏈條,該團伙中,上游主要負責給貸款人“洗腦”,讓其同意向銀行騙取車貸;中游負責偽造貸款材料,指導貸款人如何申請貸款;下游負責聯絡買家,快速將新車倒賣套現。

同年12月,海南警方成功破獲“6.06信用卡詐騙案”,共抓獲犯罪嫌疑人12名,查處犯罪窩點5處,扣押POS機300餘部,銀行卡1700餘張,初步統計涉案金額達5億元人民幣。經查,該團伙從非法收集公民個人資訊到違規辦理信用卡到利用POS機非法套取現金再到“養卡”,整個過程層級分明、分工明確。

此前,我們曾在第五講《保險代打卡對抗實戰》中提到保險行業虛擬打卡的風險。為了提升業績,保險公司往往對錶現優異的代理人團隊提供高額的獎勵和佣金。為了騙取這些獎勵和佣金,某些代理人團隊就會鋌而走險,以虛假增員、虛開保單、虛假打卡等手段來偽造業績,給保險公司帶來了鉅額的經濟損失。在第七講、第八講談及的電商行業中,也涉及團伙欺詐:黑產團伙會利用其技術優勢,搶取電商發放的大額優惠券,然後分銷獲利。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

類似的案例數不勝數。在百度輸入團夥欺詐,其相關案例多達74839條,且從以上案例不難看出,團伙欺詐往往具有組織團伙化、內外勾結化、攻擊隱蔽化和手段複雜化的特點。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

傳統的反欺詐手段往往依賴於獨立個體的反欺詐評分等方式,這些方式簡單粗暴,非黑即白,沒有充分利用個體與個體之間、個體在時間軸上的行為演變、個體在不同產品上的表現差異等更能反映全盤風險的資訊,不能隨著外部環境的變化而自動調整,無法對有潛在風險的使用者進行動態科學判定,更無法對信用逐步惡化使用者及時止損。

此外,傳統的反欺詐手段往往是以專家驅動的形式進行的,他們主要依賴於業務專家的專家經驗,這樣的防控機制效率比較低。並且,傳統的反欺詐手段往往過度依賴於外部資料,比如人行的徵信資料和第三方資料等等,對於自身積累的客戶資料反而利用和挖掘得不夠。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

為了克服這些侷限性,更好地應對團伙欺詐帶來的風險,人們開始把眼光投向了關聯網路技術。關聯網路技術指的是透過關聯圖譜識別團伙欺詐、補充個體風險的識別能力。所謂圖譜指的是由節點和節點之間錯綜複雜的關係構成的拓撲網路。關聯網路技術的精髓就在於能夠利用複雜網路演算法對複雜的關聯關係進行非線性的建模。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

關聯網路的技術框架

一個基於關聯網路的反團伙欺詐解決方案通常由關聯圖譜構建、關聯關係挖掘、圖譜展示查詢和風險監測運營四個部分組成,透過充分挖掘客戶自有資料的價值,建立起以資料和演算法為驅動的風險防控機制。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

從上圖可以看到,整個關聯網路的解決方案以業務資料為核心形成閉環。怎麼理解呢?

首先,從業務資料出發,我們可以構建出關聯圖譜。在圖譜之上,我們運用各類圖演算法進行關聯關係的挖掘,輸出風險名單,以圖譜的形式進行展示,並提供視覺化的操作介面來輔助風控人員進行風險的日常監測和運營。在這個過程中,又會不斷的積累出新的業務資料。

此外,風控人員會對關聯網路輸出的風險名單進行人工確認。這些經過人工達標後的標籤資料也會成為業務資料一部分,後續可用於最佳化演算法,這便是一個閉環的路徑。

以網貸進件申請為例,我們重點關注關聯網路技術是如何和實際的業務流程相結合的。從圖中可以看到,當一個網貸進件申請進入行內的時候,會透過一系列的審批規則進行自動化審批。在這個過程中,透過關聯圖譜可以判斷該申請人是否和已知的團伙有關聯,如果有,則會提取出相關團伙的欺詐指標。透過策略和模型的形式預測風險,對那些風險比較高的申請會進一步進入到人工審批環節。在人工審批的環節,審批人員能夠實時查詢關聯圖譜,以視覺化、互動式的方式去排查風險,最終透過或者拒絕。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

關聯網路的技術流程

通常在應用關聯網路技術時,第一步是構建關聯圖譜。在這一環節,我們需要設計圖譜中包含哪些型別的節點以及它們之間的關係,然後將業務資料加工成所需要的節點。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

在這個過程中,有時我們需要用到模糊匹配,特別是涉及到家庭地址、公司地址等一類地址資訊的時候,有時我們還需要補全隱含關係。比如,兩個客戶如果都有同一個公司地址,那麼他們很可能是同事關係,有時候,我們就需要把這種同事關係標註出來。

構建完圖譜之後,就進入第二步——關聯關係的挖掘。它有兩類常見的場景:風險傳播和團伙挖掘。所謂風險傳播是指根據已知的欺詐節點進行風險的傳導計算,識別出與風險節點相關聯的節點。而團伙挖掘演算法是利用社群發現等演算法將網路中的節點劃分成各個具有聚集性的社群。然後計算風險指標,這些風險指標大致分為兩類,一類是跟網路的拓樸結構相關,如節點的一度關係;第二類指標是社群類指標,如社群內的歷史逾期指標。計算指標之後,利用策略或者模型對之前演算法挖掘出的風險節點和風險團伙進行進一步預測,識別出高風險的節點和高風險的團伙。

在關聯關係挖掘完成之後,進入第三步——分析及應用。將關聯關係挖掘出的結果,配製成風控策略;或者以圖譜的形式展示風險名單,並提供查詢、分析等功能,用於實時的風險監控和案件溯源。

那麼,具體來看,關聯圖譜如何構建?又需要掌握哪些演算法?

如何構建關聯圖譜?

在介紹關聯圖譜構建之前,我們還需要進一步明確什麼是關聯圖譜,這就不得不提及到知識圖譜。頂象2019年釋出的《反團伙欺詐白皮書》,詳細介紹了關聯網路與知識圖譜關係及發展。

知識圖譜起源於20世紀70年代的專家系統和支援工程,直到2012年穀歌推出了面向網際網路搜尋的大規模知識圖譜之後,才正式宣告誕生。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

狹義的知識圖譜特指一類知識表示本質上是一種大規模的語義網路。語義網路是一種透過點和邊表示知識的方式,知識圖譜中的邊可以分為屬性與關係兩類。當實體的某個屬性值也是一個實體時,這個屬性實質上就是關係。

廣義的知識圖譜是大資料時代知識工程一系列技術的總稱。2017年我國首次出現了知識圖譜學科方向,其定位是“大規模知識工程”。

基於知識圖譜可以進行完成搜尋、推薦、問答和推理等工作。

根據覆蓋知識範圍的不同,知識圖譜一般可以分為通用知識圖譜和領域知識圖譜。零售金融知識圖譜就是面向金融機構零售業務的領域知識圖譜,其核心在於以使用者為中心,跨渠道、跨業務、跨產品、跨場景,基於業務邏輯整合全行級資料。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

利用零售金融知識圖譜,能夠有效地幫助銀行客戶解決現有系統中資料分散、無法聯動的問題,並以圖譜的方式將資料與關係圍繞著客戶視覺化方式展示出來,給予運營人員更加直觀的資料探索模式,進而提高人工分析的效率與準確性。

那麼,什麼是關聯圖譜呢?關聯圖譜和知識圖譜又有什麼差異呢?

關聯圖譜,可以理解為以圖的形式表示的知識圖譜。知識圖譜除了圖以外,還有三元組、實值向量等表示形式。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

相比之下,知識圖譜覆蓋面廣,規模更大,更強調“知識”,即一個概念可以例項化出哪些實體、它們有哪些屬性。而關聯圖譜往往是知識圖譜的一個子集,僅覆蓋一定的業務範圍,並且更強調實體之間的關係,甚至可以是隱含的關係。

在實際運用演算法挖掘關聯關係之前,往往需要利用隱含的關係,將複雜的關係圖譜進一步簡化為同構圖或二部圖。

比如說在一個基本要素網路中,有身份證、手機號、裝置等節點。根據同一個身份證關聯的手機號和裝置,可以構建出一個裝置和手機號的共現網路。

對於交易資料,則可以把一筆交易的轉出帳號和轉入賬號進行關聯,從而形成一個資金流向的網路。

類似地,對於網貸申請,基於兩份申請是否有同樣的IP,或者是兩個申請人是否就職於同一家公司等關聯,我們可以構建出申請之間的關聯網路,從中發現具有欺詐性的團伙。

關聯網路有哪些複雜演算法?

下圖為常見的基於圖資料的挖掘方向:

直播回顧|關聯網路如何反團伙欺詐——標準答案版

下面我們就其中常見的幾類演算法展開介紹。

1)社群發現指的是一類從關聯圖譜中自動挖掘出群聚社群的演算法。社群發現既可以是半監督式的,但更常見的是無監督式的。在一般情形下,聚集並不一定意味著風險;但對於金融這種社交屬性很弱的場景來說,聚集往往意味著風險。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

對於一個好的社群發現結果,我們希望每個社群內部節點聯絡緊密,而社群之間的連線較為稀疏,因此定義模組度(Modularity)來衡量社群的緊密程度,用Q表示。模組度可以簡單理解為社群內部節點的連線邊數與隨機情況下邊數的之差,值越大越好。模組度的定義並不是唯一的。

以最大化全域性模組度Q為目標,就有了經典的Louvain演算法。Louvain分為兩個階段並且迴圈往復:

第一個階段遍歷網路中的節點,將各個節點分配到相鄰社群使得模組度增益最大,直到所有節點都不再變化;

第二個階段將生成的社群看作一個新的節點,邊的權重重新計算為兩個新的節點內所有原始節點的權重之和。

重複這兩個階段直到整個圖的模組度穩定。

2)標籤傳播是基於關聯圖譜的半監督學習方式。主要目的是利用已標記的節點去預測為標記的節點的標籤。在標籤傳播的過程中,各個節點根據周圍節點標籤的加權來更新自己標籤的機率分佈,當所有節點的機率分佈趨於穩定之後停止更新。

標籤傳播演算法也可以被用於社群劃分,初始需要假設每個節點都各屬於獨立的類別。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

3)節點中心度。在網路中,越是活躍或趨於網路中心的位置的人,在網路中的重要性越高。在社交網路中,活躍的節點通常意味著更強的社交能力;但在風控領域,活躍的節點通常意味著較大的風險。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

計算該類中心度的圖演算法有PageRank、Laplacian Centrality 等等。其中,PageRank演算法作為計算網際網路網頁重要度的演算法被提出,如圖所示,圖中節點代表網頁,箭頭代表超級連結,百分比的大小代表網頁的重要程度。PageRank值依賴於網路的拓撲結構,一旦網路的拓撲(連線關係)確定,PageRank值就確定。

4)圖嵌入和圖神經網路。

圖嵌入旨在透過學習圖的結構或節點之間的鄰接關係,對節點進行編碼,將所有節點對映為等維度的向量,使其能夠方便地應用於下游的聚類、分類等任務。

圖嵌入屬於無監督學習演算法,常見的圖嵌入演算法包括DeepWalk和Node2Vec等,前者的主要思想是透過隨機遊走生成節點序列,然後採用類似Word2Vec的計算方法,計算節點的嵌入式表示;後者是對前者的最佳化。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

圖嵌入有以下幾點不足:

1)節點表示學習過程中,沒有共享的引數。因為訓練過程中,其引數的學習與網路的節點數量相關。

2)圖嵌入演算法訓練過程中,圖嵌入利用圖的拓撲結構資訊為節點訓練表示,沒有考慮節點的屬性資訊。

3)圖嵌入演算法屬於直推式學習,而非歸納式學習。因而其要求所有節點在訓練學習期間存在,因此,不適用於圖中節點不斷變化的動態圖。

在這之後,受於卷積神經網路在影像處理取得巨大成功的啟發,加上圖嵌入的思想,圖嵌入演算法逐漸過渡到圖神經網路時代,湧現出一大批優質的圖神經網路模型,在工業界大放異彩。

從此,基於神經網路的圖嵌入演算法不再僅僅侷限於節點的鄰接資訊,而開始將節點本身的特徵納入模型考量,並逐漸從靜態的直推式(transductive) 學習向動態的歸納式 (inductive) 學習演變,無論是擬合能力還是泛化能力,都大大提升。

圖神經網路的主要思想,是聚集某節點鄰居的特徵資訊,並透過聚合函式學習該節點的embedding。圖神經網路的最大貢獻是將卷積計算擴充套件到圖資料中,使卷積神經網路可以應用到“不規整”的資料結構上。所謂“不規整”,指的是在圖中一個節點可以有任意多個鄰居節點;而在影像中,一個節點的鄰居節點數目是固定的,例如當採用33的卷積核時,中間的節點一定有8個鄰居節點。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

由於可解釋性、計算複雜度等限制,圖神經網路尚未被廣泛地應用於業務安全領域。

關於關聯網路技術在實際業務中的應用案例,後續可關注頂象影片號獲取,這裡就不再贅述。

最後再給大家簡單介紹下頂象業務安全大講堂。

頂象業務安全大講堂彙集了業內大咖,分享萬億級業務安全攻防經驗,打造時下最專業的業務安全直播課,透過“技術+方案+實踐”三大核心專題,帶您全面瞭解金融、網際網路、航旅出行、跨境電商以及目前大熱的NFT等各類業務風險及防範手段,深入解析背後的產品技術,抽絲剝繭攻防實戰,助您打造零風險的數字業務。

直播回顧|關聯網路如何反團伙欺詐——標準答案版

下期將由頂象人工智慧專家&研發總監無常帶來主題為《業務安全平臺核心模組解析——智慧模型平臺》,敬請期待!

——————

業務安全產品:免費試用

相關文章