正如吳恩達在他關於應用 triplet loss 函式的演講中指出的那樣,在深度學習文獻中總是會用到“__Net”或者“Deep__”這樣的取名。所以,本著這種“傳統”,我也將本文命名為Fraud Net或者Deep Fraud。
言歸正傳,我們還是開始講欺詐檢測吧。
我們其實關注的是欺詐預測(預防欺詐發生),這個後續我們會說到。今天我們講,如何把一些先驗行為歸於二分類目標,換句話說欺詐/非欺詐目標。我們將研究確定某個實體是否進行了交易欺詐的兩種方法,第一是使用圖的嵌入;第二是使用一些圖的Topology Metric。
這裡大家可能會有一個疑問,如果交易欺詐已經發生了,那麼誰會在乎識別結果?通過學習這篇文章,你會知道這很重要。2015年我曾經提到過,假正(False Positive ,被模型預測為正的負樣本)欺詐標籤導致了118 billion dollars的損失,而實際欺詐案件的成本為90 億美元。雖然90億美元很多,但是隻佔總成本的7%。所以,準確標記欺詐交易和建立空間站一樣重要。
圖嵌入——個體欺詐
首先,要將你的資料組織成graph。將個人客戶和商家作為節點,並將其財務歷史作為節點屬性。使用節點屬性(比如交易時間戳和交易金額)構建表示這些實體之間金融交易的邊。
然後,將graph嵌入到低維空間,這樣我們才可以使用較為簡單的模型來分析它。為什麼不直接將graph data輸入到模型中呢?因為幾何形狀不相容(你可以通過學習Kipf他們的論文《Semi-Supervised Classification with Graph Convolutional Networks》瞭解我說的意思)。
正如上面所說,節點表示擁有信用卡的個人客戶和與他們交易的商戶。注意下面的三維結構,大量的邊表示金融交易。這真是一個非常需要嵌入的圖。
邊表示金融交易
關於上述兩個方法,也為大家找來了兩種方法的詳述內容:
The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering
https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf
Spectral embedding of graphs
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf
使用 Topology metric——團伙欺詐
看下圖,這是一組在財務上互動的公司。顏色代表他們的“community”,由無監督學習演算法確定。任務是分析黃色的公司真的是洗錢團伙的幌子嗎?
第二步:構建一個演算法,提取感興趣的子圖(上圖中的彩色社群),並計算每個社群的Topology metric;Topology metric是描述子圖形狀的,比如一種流行的Topology metric是邊的數量,在黃色的子圖中,有25條邊。這裡有很多何種Topology metric,我們為每個子圖計算了幾十個;
第三步:為每個子圖構建這些topology metric的特徵向量,以另一種方式連線節點屬性。這裡是計運算元圖中所有節點的平均節點屬性;
第四步:構建已知標籤的目標向量(或者多分類目標矩陣),然後構建模型訓練。
原文連結:https://www.experoinc.com/post/fraud-detection-using-deep-learning-on-graph-embeddings-and-topology-metrics