用深度學習進行欺詐檢測

極驗發表於2019-04-28

正如吳恩達在他關於應用 triplet loss 函式的演講中指出的那樣,在深度學習文獻中總是會用到“__Net”或者“Deep__”這樣的取名。所以,本著這種“傳統”,我也將本文命名為Fraud Net或者Deep Fraud。

言歸正傳,我們還是開始講欺詐檢測吧。

用深度學習進行欺詐檢測
圖1:包括金融公司常規交易和欺詐交易的圖

我們其實關注的是欺詐預測(預防欺詐發生),這個後續我們會說到。今天我們講,如何把一些先驗行為歸於二分類目標,換句話說欺詐/非欺詐目標。我們將研究確定某個實體是否進行了交易欺詐的兩種方法,第一是使用圖的嵌入;第二是使用一些圖的Topology Metric。

這裡大家可能會有一個疑問,如果交易欺詐已經發生了,那麼誰會在乎識別結果?通過學習這篇文章,你會知道這很重要。2015年我曾經提到過,假正(False Positive ,被模型預測為正的負樣本)欺詐標籤導致了118 billion dollars的損失,而實際欺詐案件的成本為90 億美元。雖然90億美元很多,但是隻佔總成本的7%。所以,準確標記欺詐交易和建立空間站一樣重要。

圖嵌入——個體欺詐


場景一:提高信用卡欺詐分析工具的準確性。

首先,要將你的資料組織成graph。將個人客戶和商家作為節點,並將其財務歷史作為節點屬性。使用節點屬性(比如交易時間戳和交易金額)構建表示這些實體之間金融交易的邊。

然後,將graph嵌入到低維空間,這樣我們才可以使用較為簡單的模型來分析它。為什麼不直接將graph data輸入到模型中呢?因為幾何形狀不相容(你可以通過學習Kipf他們的論文《Semi-Supervised Classification with Graph Convolutional Networks》瞭解我說的意思)。

正如上面所說,節點表示擁有信用卡的個人客戶和與他們交易的商戶。注意下面的三維結構,大量的邊表示金融交易。這真是一個非常需要嵌入的圖。

用深度學習進行欺詐檢測
圖2:沒有embedding的圖,節點是個人客戶和商戶

邊表示金融交易

embedding的策略有很多,我主要介紹兩個常見的,一是主成分分析降低維度(PCA);二是通過特徵值分解的spectral embedding(eig)。
用深度學習進行欺詐檢測
圖3:這是圖2經過兩種embedding方法後的呈現,藍色是PCA;橙色是特徵值分解。

最後,我們可以構建一個模型,對經過嵌入的graph進行建模就和普通的深度學習建模一樣了。這包括了節點(實體),邊,還有上述的座標資訊。建一個分類模型,進行訓練就好了。

相關的信用卡欺詐檢測資料集:http://mlg.ulb.ac.be

關於上述兩個方法,也為大家找來了兩種方法的詳述內容:

The Principal Components Analysis of a Graph, and its Relationships to Spectral Clustering

https://www.info.ucl.ac.be/~pdupont/pdupont/pdf/ecml04.pdf

Spectral embedding of graphs

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.101.2297&rep=rep1&type=pdf

使用 Topology metric——團伙欺詐


場景二:從大量的交易記錄中找出洗錢的團伙。這個問題比分析單個交易記錄更有趣。這不是看離散樣本,而是要分析金融互動。這也是圖真正的魅力所在。

看下圖,這是一組在財務上互動的公司。顏色代表他們的“community”,由無監督學習演算法確定。任務是分析黃色的公司真的是洗錢團伙的幌子嗎?

用深度學習進行欺詐檢測
圖4:黃色的公司真的是洗錢團伙的幌子嗎?

第一步:將資料定義為圖結構;

第二步:構建一個演算法,提取感興趣的子圖(上圖中的彩色社群),並計算每個社群的Topology metric;Topology metric是描述子圖形狀的,比如一種流行的Topology metric是邊的數量,在黃色的子圖中,有25條邊。這裡有很多何種Topology metric,我們為每個子圖計算了幾十個;

第三步:為每個子圖構建這些topology metric的特徵向量,以另一種方式連線節點屬性。這裡是計運算元圖中所有節點的平均節點屬性;

第四步:構建已知標籤的目標向量(或者多分類目標矩陣),然後構建模型訓練。

原文連結:https://www.experoinc.com/post/fraud-detection-using-deep-learning-on-graph-embeddings-and-topology-metrics

相關文章