CIKM 18 | 螞蟻金服論文:基於異構圖神經網路的惡意賬戶識別方法
小螞蟻說:
ACM CIKM 2018 全稱是 The 27th ACM International Conference on Information and Knowledge Management,會議於2018年10月22日-26日在義大利都靈省舉行。
CIMK 是國際計算機學會(ACM)舉辦的資訊檢索、知識管理和資料庫領域的重要學術會議。本次大會目的在於明確未來知識與資訊系統發展將面臨的挑戰和問題,並透過徵集和評估應用性和理論性強的高質量研究成果以確定未來的研究方向。
本篇文章分享了螞蟻金服在CIKM 2018上的一篇論文《 Heterogeneous Graph Neural Networks for Malicious Account Detection》,作者包括 劉子奇、陳超超、楊新星、周俊、李小龍、宋樂。
線上賬戶伴隨著(移動)網際網路的誕生而產生,在金融服務領域,這種透過批次、低成本註冊的惡意賬戶的存在是十分危險的。本文介紹了一種新的基於異構圖的、面向惡意賬戶識別的圖神經網路方法 GEM ,這也是這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網路方法。
1.概述
本文的主要目的是介紹一種新的基於異構圖的、面向惡意賬戶識別的圖神經網路方法(GEM, Graph Embeddings for Malicious accounts)[1]。該方法是支付寶為保障體系內賬戶安全,降低惡意賬戶帶來的資損,保障支付體系健康,在人工智慧領域所做的努力和嘗試。 這也是世界上已知的第一個面向惡意賬戶檢測的圖神經網路方法 。
下面,我們將為大家講解如下內容:
1. 惡意賬戶是什麼?具有什麼特點?
2. 為什麼圖神經網路方法能夠高效識別惡意賬戶?
3. 我們的 GEM 方法如何工作?
感興趣的朋友 請直接戳論文檢視細節:
2.惡意賬戶是什麼?具有怎樣的特點?
2.1什麼是惡意賬戶
隨著(移動)網際網路誕生,催生了多種形式的線上服務,線上賬戶隨之產生。比如:Gmail 提供的郵件服務,微博/Twitter 提供的短訊息分享服務,支付寶提供的支付服務等。透過註冊大量 Gmail 郵箱賬戶,惡意使用者就可能迅速、大量地擴散垃圾廣告等資訊。微博賬戶等也可能催生殭屍賬戶達到某種非法營銷、傳播目的。在金融服務領域,這種惡意賬戶的存在就更加危險,比如註冊大量新賬戶達到薅羊毛、洗錢、欺詐等目的。
用一句話總結:惡意賬戶具有強烈獲取利益傾向和團伙性質,往往是透過批次、低成本註冊的賬戶。
2.2惡意賬戶的特點
本文我們對黑產賬戶資料進行分析,並總結如下特點:
1.裝置聚集性:見下圖所示。兩張圖分別展示了使用者(縱軸)過去是否在裝置(橫軸)有過登入行為。藍色點代表該使用者過去有在某裝置上登入過。其中,左圖顯示的是正常賬戶特徵,右圖顯示的是惡意賬戶特徵。從圖中可以看出,左圖 pattern 較為均勻(regular),即便不同型別的裝置(媒介)上,其和賬戶連線的 pattern 可能密度不太一樣。右圖則完全不同,我們可以在黑產賬戶上看到極為有規律和稠密的 pattern。這說明,黑產賬戶更傾向於在裝置(媒介)的聯通上有著高聚集性。
2.時間聚集性:見下圖所示。兩張圖分別展示了賬戶(縱軸)在時間(橫軸)上的行為序列。其中一個藍點代表該使用者在某時間點上有登入行為。左圖仍然為正常賬戶,而右圖則是黑產賬戶。因為我們取的都是新註冊賬戶,所以在註冊時間點前無行為。從左圖可以看出,正常賬戶在註冊之後,每天會有均勻的登入 pattern,右圖中的黑產賬戶則只在某個時間段內集中達成某種行為,這種 pattern 我們稱之為時間聚集性。
小結:這兩種特徵是黑產賬戶所固有形成的。即,這些黑產受利益所驅動而無法繞開這些模式(只要能準確捕獲黑產賬戶之間共享的裝置資訊,這裡的裝置不限於某一個手機、某一個IP地址,可以認為是一種媒介)。我們針對這些資料特點設計了基於圖的神經網路演算法識別黑產賬戶。
3.為什麼圖神經網路演算法能識別黑產
一個直觀的方法是聯通子圖方法。我們先構建賬戶-裝置二部圖,由於裝置聚集性,我們可以計算每個聯通子圖的節點數目,每個賬戶的危害程度取決於該節點所在聯通子圖的節點數目。該函式本質上可以用圖神經網路抽象。有興趣的讀者請見我們公眾號另一篇文章:《 論文 | 螞蟻金服亮相資料探勘頂會KDD 2018,這些你不可錯過! 》。
該方法可以準確識別那些裝置聚集度特別高的黑產賬戶。但是對於裝置聚集程度一般或較低的賬戶,很難做出準確區分。
4.GEM 方法如何工作
基於我們前面對裝置聚集性和時間聚集性的分析,我們將上面的用於刻畫聯通子圖的圖神經網路方法進行擴充套件:
第一、我們構建異構圖,包括賬戶類節點,以及多種型別的裝置資訊,如:電話、MAC、IMSI 以及其他 ID。
第二、我們為每個賬戶加入時間上的行為特徵 X ∈ R N,P 。其中每行 X i 表示節點(賬戶或裝置)在時間上的行為特徵。我們希望構建的神經網路模型可以學習到透過裝置聚集在一起的賬戶在行為特徵上的模式,從而更準確的做出判別。
我們的演算法如下:
5.結果
我們使用了連續 4 周的資料,比較了 GEM 和其他有競爭力的方法在這些資料上的 AUC 和 F1-score 上的表現。
下面,我們比較了這些方法在 Precision-Recall 曲線上的表現。從圖中可以看出,GEM 可以在召回的頭部到尾部,都保持相對一致的高準確度。這使得我們的方法可以在避免打擾正常賬戶的同時,有效打擊黑產賬戶。
最後,我們分析了我們的演算法自動識別的異構圖中不同型別賬戶的有效性。這些分析可以幫助我們更加有效理解哪類裝置在當前有高機率會被利用,以及隨時間變化,黑產策略的調整等。
參考文獻
[1] Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, Le Song. Heterogeneous Graph Neural Networks for Malicious Account Detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, Turin 2108.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31560885/viewspace-2219368/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 論文解讀 | 基於神經網路的知識推理神經網路
- 基於神經網路的OCR識別神經網路
- 基於卷積神經網路的建築圖紙識別研究方向卷積神經網路
- 螞蟻金服RPC框架結構分析RPC框架
- 模型壓縮:識別感知的深度神經網路通道裁剪 | 論文分享模型神經網路
- DGL更新報告:異構圖神經網路神經網路
- 螞蟻金服:2020年網路互助行業白皮書行業
- 論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)特徵卷積神經網路架構GC
- 螞蟻金服Service Mesh新型網路代理的思考與實踐
- 【Pytorch】基於卷積神經網路實現的面部表情識別PyTorch卷積神經網路
- 螞蟻金服面試經歷-前期準備面試
- 論文閱讀丨神經清潔: 神經網路中的後門攻擊識別與緩解神經網路
- 關於神經網路的討論神經網路
- 圖神經網路知識神經網路
- 基於深度神經網路的人臉識別相關問題神經網路
- AAAI-20論文解讀:基於圖神經網路的二進位制程式碼分析AI神經網路
- 從網路接入層到 Service Mesh,螞蟻金服網路代理的演進之路
- 解構螞蟻金服:巨擘崛起(附下載)
- 利用淺層神經網路識別圖片中的英文神經網路
- 螞蟻金服面試經歷-臨場發揮面試
- 基於卷積神經網路和tensorflow實現的人臉識別卷積神經網路
- 一文了解螞蟻金服今年 KubeCon 全部重磅分享
- 基於CNN卷積神經網路的MQAM調製識別matlab模擬CNN卷積神經網路MQMatlab
- 清華NLP圖神經網路GNN論文分門別類,16大應用200+篇論文神經網路GNN
- KDD 18 & AAAI 19 | 異構資訊網路表示學習論文解讀AI
- 【Python】keras神經網路識別mnistPythonKeras神經網路
- 速來圍觀老田的螞蟻金服Java面試經歷!Java面試
- 基於圖神經網路的動態物化檢視管理神經網路
- 使用圖神經網路做基於會話的推薦神經網路會話
- 螞蟻金服 Service Mesh 實踐探索
- (螞蟻金服mPaaS)統一儲存
- 螞蟻金服 Service Mesh 深度實踐
- 9.9螞蟻金服二三輪面試面試
- 分享2019年螞蟻金服面經(已拿Offer)!附答案!!
- 螞蟻金服楊軍:螞蟻資料分析平臺的演進及資料分析方法的應用
- 手寫數字圖片識別-卷積神經網路卷積神經網路
- OSDI '18重磅解密:螞蟻金服實時金融級分散式圖資料庫GeaBase解密分散式資料庫
- 基於螞蟻金服「如何管理好10萬行程式碼」搭建了 Vue 專案架構行程Vue架構