11月 10 日下午15:00 第九期《關聯網路技術在業務安全中的應用》正式開講。頂象資料科學家翼龍詳盡的介紹了關聯網路在反團伙欺詐中的作用,深度剖析了關聯網路的技術框架、關聯網路的圖譜構建以及關聯網路的複雜演算法,為反團伙欺詐提供了重要的參考。
直播過程中也吸引了不少粉絲前來圍觀,就關聯網路的技術難點提出了自己的疑問。現將部分問題整理出來,供大家參考。
Q1:關聯網路的可解釋性怎麼樣?
翼龍:可解釋性是一個很大的話題。我們說可解釋性的時候,往往指的是模型的可解釋性。可解釋性的含義是模型在給出預測結果同時給出決策的依據,以及決策的過程是否透明。
在常見的機器學習演算法中,決策樹、評分卡(線性模型)具有良好的可解釋性;而神經網路則是一個黑盒,可解釋性較差。
在一些業務場景,特別是金融、保險相關的,由於合規要求和風控要求,對模型的可解釋性要求較高,所以在這類業務場景中傾向於使用決策樹、評分卡等可解釋性較高的模型。
一般來說,關聯網路技術的可解釋性較好,體現在:
1.複雜網路演算法通常有明確的計算過程,例如標籤傳播演算法、PageRank等,有明確的計算公式,然後不斷地迭代;
2.可以透過關聯指標(拓撲結構、社群指標等)對風險預測的結果提供證據支撐;
3.可以透過圖譜展示工具進行查詢、探索,驗證結果。
基於關聯網路的解決方案中往往還會將模型和關聯網路技術結合(例如信用卡養卡套現的反欺詐方案),為了滿足可解釋性,往往也會使用樹模型等。
Q2:最後是以機器學習平臺來演示關聯網路的技術方案的,那麼頂象有自己單獨的關聯網路平臺嗎?
翼龍:曾經有,現在和機器學習平臺合併了。有兩個出發點:
1.關聯網路的解決方案中往往會同時使用到圖演算法和機器學習演算法(例如信用卡養卡套現的反欺詐方案),為了便於資料的共享,在一個平臺中實現更為便捷。
2.要實際落地解決業務問題,基於關聯網路的解決方案就不僅僅是演算法問題,而是工程化的問題,需要將複雜的流程自動化執行。機器學習平臺提供了“排程任務”的功能,能很便捷地解決工程化落地的問題。
其實關聯網路也好,模型也好,甚至是統計報表,都可以視為是資料的應用。只要是資料應用,都需要平臺工具提供對資料同步、資料儲存、資料管理、資料加工、資料展示、資料輸出到下游業務系統等功能的支援。正因為需要很多通用的功能,所以才有必要合併。頂象的機器學習平臺不僅是一個建模平臺,更是一個資料排程中心。
Q3:如何更好掌握關聯網路?有什麼好的學習途徑嗎?
翼龍:首先,關聯網路技術其實覆蓋了很多內容,其中主要涉及到圖譜的構建和複雜網路演算法的應用,所以可以重點學習一下知識圖譜相關和圖資料探勘的相關內容。直播中也提到,史丹佛大學的《圖機器學習》是很不錯的教程,值得深入學習。
其次,關聯網路技術是解決具體業務問題的解決方案,因此建議多瞭解相關的案例,並學會舉一反三,針對一個業務問題的解決思路往往可以應用到別的場景中去。本次直播中分享了三個基於關聯網路的解決方案,可以說是乾貨滿滿,希望大家多總結、多思考。
Q4:關聯網路技術有什麼侷限性?
翼龍:我認為有兩點:
1、效率問題
當網路中節點和邊比較多的時候,不管是構建圖譜還是運用圖演算法,都非常耗時。
2、實時性
也正是因為效率問題,通常以離線T-1的方式構建圖譜,意思是線上使用的圖譜,是由昨天及昨天之前的資料構建而成的,無法做到實時更新圖譜。
彌補方式:風控策略中需要用到的風險關聯性指標透過流計算直接得到。
Q5:信用卡養卡套現的案例中,在使用標籤傳播演算法之前,為何採用卡與POS機的二部圖,而不進一步抽象為只有卡的同構網路?
翼龍:在二部圖中使用標籤傳播演算法時,可以理解為拆分成了計算卡和計算POS機的風險機率兩部分交替進行(即風險只能從卡傳播到POS機或從POS機到卡)。
實際情況是卡的數量遠遠多於POS機的數量,如果利用隱含關係直接從二部圖中抽取卡的同構網路,邊的數目會遠遠多於點的數目,會大大提高計算的複雜度。在直播的案例分享中,我們還介紹了一個變體,就是透過時序關係構建卡的時序關聯網路,其本質就是簡化了上述卡的同構網路。
Q6:超級節點如何處理?
翼龍:首先判斷這個超級節點是否是具有特殊業務屬性的,評估該節點的風險程度。比如在交易網路中,可能存在支付寶之類的中間平臺,它們就是超級節點,有非常多的交易與之相關。在資訊有限的情況下,簡單的處理方式就是從網路中去掉這個節點。如果有額外的資訊,比如知道一筆交易關聯了支付寶上的哪家商戶,那麼就可以把商戶加入到網路中來,取代那個超級節點。
Q7:超級節點跟普通節點之間過度比較平滑,怎麼處理那種又像超級節點,又像箇中介節點的呢?
翼龍:具體可能還得結合業務和場景去分析。以下思路僅供參考:
1、核心問題是這個節點的邊太多了,那就看有沒有一些不重要的邊可以剔除。
2、在做分割的時候,先把這個節點和邊去掉,在分割後的子圖中,看這個節點跟哪個子圖聯絡更緊密。如果存在多個聯絡緊密的子圖,就在這些子圖中都新增這個節點。
Q8:子圖分割有什麼好的依據?
翼龍:這個問題和解釋性有關。可以用模組度等的指標來證明分割後的子圖的聚集性高。子圖分割如果是指社群發現的話,其實在運用演算法之前會刪除一些關係比較弱的邊;社群發現之後,也會進一步計算一些社群的拓撲結構和業務相關的指標,來表明社群的風險程度。可解釋性不僅體現在存在決策的依據,也體現在決策的過程,只要過程是明確的、透明的,就有一定的可解釋性。
最後再給大家簡單介紹下頂象業務安全大講堂。
頂象業務安全大講堂彙集了業內大咖,分享萬億級業務安全攻防經驗,打造時下最專業的業務安全直播課,透過“技術+方案+實踐”三大核心專題,帶您全面瞭解金融、網際網路、航旅出行、跨境電商以及目前大熱的NFT等各類業務風險及防範手段,深入解析背後的產品技術,抽絲剝繭攻防實戰,助您打造零風險的數字業務。
下期將由頂象人工智慧專家&研發總監無常帶來主題為《業務安全平臺核心模組解析——智慧模型平臺》,敬請期待!
——————
業務安全產品:免費試用