金融欺詐資料分析

weixin_34107955發表於2018-07-16

資料集:金融欺詐資料

目標:對資料集建模,預測金融行為是否是欺詐行為

資料視覺化展示EDA

首先匯入需要使用的包和讀入資料資訊


13170478-fa86e7af7f2dc118.png


13170478-b862eb6fdebc6cc1.png

觀察資料欄位。

13170478-053e9dfae9b0baa0.png
13170478-c4be17ad6ed32a7f.png

cash_out型別的轉賬最多。

檢視轉賬型別和欺詐標記的關係。

13170478-608af15c13d7a37d.png
13170478-fd8521606966b092.png

發現欺詐行為存在於大額轉賬和全部提現行為中。

所以對資料進行清洗,去掉不存在欺詐行為的轉賬方式。並且繪製熱力圖觀察變數間的關係。


13170478-691f19751e9f7fc6.png
13170478-5152c2fec0f6baac.png

資料清洗

因為欺詐行為和不欺詐行為的樣本量極為不均,所以採用下采樣的方法,對不是欺詐行為的樣本進行隨機取樣。


13170478-7a3a3a0e73cbc9bc.png

得到了特徵和標籤。

資料建模

匯入需要的機器學習包,這裡使用邏輯迴歸。

並建模。

13170478-64042b074b55bde7.png

結果可得roc_acu= 0.9751185216666503。

np.mean(y_pre==y_test),精度為0.926948051948052。

相關文章