DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection
DGragh是一個用於圖異常檢測(gragh anomaly detection, GAD)的大型金融資料集。
它包含300w個節點、400w個動態邊和100w個ground-truth節點。
作者在關注的問題
大領域:圖異常檢測(GAD)
現實世界場景中,異常是普遍存在的且具有破壞性的。作者舉了一個電匯欺詐的例子:2020年電匯欺詐者造成了高達1.8萬億美元的損失。然而,只有12%-15%的案件被報告,且只有29%的受害者能完全追回資金。因此,研究GAD可以幫助預防和檢測這些欺詐者的存在。
中領域:GAD中的異常節點檢測
在GAD中具有代表性
目前領域中資料集的困難
GAD資料集的主要要求:縮小學術界和工業界之間的差距
由於現實世界中異常的稀缺性,只有少數公共資料集同時具有圖結構和異常的ground-truth標註,所以豐富GAD的多樣性是當前GAD研究的基礎工作。
從一些具有代表性但當前未被覆蓋的領域收集資料集可以大大加快這一過程,因此本文關注金融欺詐檢測。
小領域:金融欺詐檢測
當前GAD資料集存在的一些侷限性:
- 規模小
- 忽略了圖的時間動態
- 現實世界場景中,並不是所有節點都需要去被分類/預測的
作者針對這三個問題進行了最佳化。
因此,以下是對DGragh的簡單介紹:
- DGragh有300萬個節點以及400萬條邊,且有100萬個真實異常標註
- 由於在現實場景中並不是所有的節點都需要被分類/預測,但是移除節點又會失去豐富的資訊並損害網路結構的連通性,因此,DGragh將這些節點稱為background節點,其他稱為target節點。DGragh保留了超過200萬個background節點(指的是那些由於缺乏借貸行為而不是檢測目標的使用者)
- DGragh中一個節點代表一個Finvolution使用者,從一個使用者到另一個使用者的邊表示該使用者將另一使用者設定為緊急聯絡人。
- DGragh包含豐富的動態資訊
DGragh
raw data
總結而言,特定使用者的原始資料包括五個組成部分:
(1)使用者ID。
(2)基本個人資料資訊,如年齡、性別等。
(3)電話號碼;注意,每個賬戶都與特定電話號碼匹配。
(4)借貸行為,包括還款到期日和實際還款日期。
(5)緊急聯絡人,包括每個聯絡人的姓名、電話號碼和最後更新時間。
欺詐者
金融欺詐者經常提供虛假的個人資訊,其中一些可能還有奇怪的社交網路(與普通使用者相比),還有一些在平臺操作上表現異常。
節點特徵
源自基本個人資料的節點特徵是一個17維的向量,每個維度對應個人資料的一個不同元素(如年齡和性別)。為了保護使用者隱私,作者不透露任何維度的具體意義。缺失值被標記為“-1”。
在構建過程中,緊急聯絡人僅保留那些是Finvolution使用者的,以保護使用者隱私。
labeling nodes
DGragh中有32.2%節點有相關的借貸記錄。
定義:至少有一次,在到期日後很長時間不還款並忽視平臺多次提醒的使用者為異常/欺詐者。
另一部分借款使用者是正常使用者,而另一部分沒有借貸行為的使用者被標記為“背景節點”。
對異常節點和正常節點的觀察
- 欺詐者和正常使用者的平均入度相似,但是平均出度差距顯著。正常使用者的平均出度是欺詐者的2.33倍。
- 欺詐者在出邊上的鄰居相似性低於正常使用者
- 缺失值個數的不同
- 相同出度下,欺詐者的出邊平均時間低於正常使用者——表明欺詐者更可能在短時間內填寫他們的緊急聯絡人資訊
文章中還有對背景節點的研究,這裡不再贅述。
實驗 on DGragh
作者圍繞以下三個問題:
Q1:當前的GAD模型在DGraph上的表現如何?
Q2:如何處理DGraph的缺失值?
Q3:DGraph的背景節點有多重要?
結論見論文。
基礎知識
異構GNN中的“異構”怎麼理解?
在異構GNN(Heterogeneous Graph Neural Networks)中,“異構”指的是圖的節點或邊的型別多樣性。與傳統的同構圖(Homogeneous Graph)不同,異構圖包含多種型別的節點和/或多種型別的邊。這種多樣性通常可以更好地表示覆雜的關係和資訊結構。
具體來說,異構圖中的異構性主要體現在:
節點異構性:圖中存在不同型別的節點。例如,在一個社交網路中,節點可以代表“使用者”、“帖子”或“評論”。
邊異構性:圖中存在不同型別的邊,表示不同的關係或互動。例如,在同一個社交網路中,邊可以表示“使用者關注使用者”、“使用者點贊帖子”或“使用者評論帖子”。
異構GNN旨在利用這種多樣性,透過設計特定的網路結構或機制來有效地捕捉和利用不同型別節點和邊之間的複雜關係,從而提高對異構資料的建模能力。