2022！影響百萬使用者金融信用評分，Equifax被告上法庭，罪魁禍首——『資料漂移』！⛵

ShowMeAI發表於2022-11-17

原文網址 : https://www.cnblogs.com/showmeai/p/16899049.html

2022！影響百萬使用者金融信用評分，Equifax被告上法庭，罪魁禍首——『資料漂移』！⛵

? 作者：韓信子@ShowMeAI
? 資料分析實戰系列：https://www.showmeai.tech/tutorials/40
? 機器學習實戰系列：https://www.showmeai.tech/tutorials/41
? 本文地址：https://www.showmeai.tech/article-detail/331
? 宣告：版權所有，轉載請聯絡平臺與作者並註明出處
? 收藏ShowMeAI檢視更多精彩內容

? 資料漂移

The Only Constant in Life Is Change. 世界上唯一不變的就是變化本身。

這是一句來自希臘的哲學家赫拉克利特寫的話，它很簡單但卻道出了世界的真理之一。在資料科學與機器學習領域，這句話同樣是非常有意義的，在生產中部署機器學習模型的許多實際應用中，資料通常會隨著時間的推移而變化，因此之前構建的模型會隨著時間的推移而變得不準確，效果大打折扣，這就是典型的資料漂移問題。

? 真實案例

2022年3月17日至4月6日，信用報告機構 Equifax 的系統出現問題，導致 ?信用評分不正確，影響到百萬級別的消費者，並導致了針對公司的法律索賠和集體訴訟，業內專家稱，這個問題的根源就是資料漂移。

? 資料漂移

? 何為資料漂移

當我們在使用資料科學方法解決場景問題時，得到方案之後，在實際生產環境中，如果我們拿到的實時預測資料，分佈與用於訓練模型的訓練資料分佈有差異時，就發生了『資料漂移』，而它的後果就是預估不再準確，效果下降甚至直接影響公司的收益。

簡單的例子，例如用『口罩政策』之前的網際網路資料建模，對『口罩政策』實施時的使用者行為預估，那一定會有偏差；又如我們用日常資料建模，構建電商推薦系統，在 618 和雙11當天預測，可能也會有偏差，模型效果下降。

訓練資料和生產資料之間的差異可能是由多種因素造成的。可能本來使用的訓練資料就不合適。

例如，如果使用美國道路資料集訓練和檢測道路狀況，應用在中國的道路上，效果就會差非常多，這也是明顯的資料漂移。

現代網際網路時代，沒分每秒都迅速產生海量大資料，我們的資料來源呈現爆炸式增長也更容易會有變化。我們並不能每次都提前預判到『資料漂移』問題，甚至有時候我們會遇到特殊的網路攻擊，基於『資料漂移』的知識進行調整和切換攻擊方式。

例如，我們基於歷史資料構建了效果非常良好的垃圾郵件檢測功能，但攻擊者可能在某個時候改變傳送垃圾郵件的行為，因為送入模型的資料發生了變化，我們原本構建的模型可能真的會被『欺騙』。

因此，很重要的是，我們需要有一套比對和檢測的機制，可以及時發現『資料漂移』，並對其進行處理。

? 檢測方法概述

有很多資料漂移的檢測方法，最簡單的方式是基於統計方法來比較『訓練資料』（稱為基線或參考）和『實時資料』（生產資料）的分佈，如果兩個分佈之間有著顯著差異，我們就判斷為發生資料漂移。

最流行的統計檢驗方法包括 ?Kolmogorov-Smirnov 檢驗、?卡方檢驗、 ?Jensen-Shannon 散度、 ?Wasserstein 距離。另一類方法是使用機器學習模型來監控資料質量。我們也可以把兩類方法混合使用。

實際生產環境中，統計的方法使用得很多，它們簡單且有很不錯的效果。下面 ShowMeAI 就基於程式碼告訴大家如何進行『資料漂移』檢測。

? 程式碼實現

? 資料漂移檢測

我們在這裡會使用到 evidently 這個非常簡單易用的工具庫，它是一個專門針對『資料漂移』問題構建的工具庫，可以對資料 / 標籤 / 模型表現等進行檢測，不僅可以輸出報告，還可以啟動實時看板監控。

下面匯入工具庫

import pandas as pd
from sklearn import datasets 
from evidently.dashboard import Dashboard
from evidently.dashboard.tabs import DataDriftTab, CatTargetDriftTab

evidently的使用步驟如下，我們會先載入資料，然後做漂移分析和檢測，最後可以構建看板進行分析結果的呈現。

我們使用sklearn自帶的 iris 資料集作為示例來給大家講解，我們把對應的資料和標籤讀取出來。

iris = datasets.load_iris()
iris_frame = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_frame['target'] = iris.target

我們把完整的資料集切分為訓練集和測試集，對其進行對比和資料漂移分析，最後構建儀表盤看板：

iris_data_drift_report = Dashboard(tabs=[DataDriftTab(verbose_level=verbose), 
                                         CatTargetDriftTab(verbose_level=verbose)])
iris_data_drift_report.calculate(iris_frame[:75], iris_frame[-new_samples:], column_mapping = None)
iris_data_drift_report.show(mode="inline")

注意到引數verbose，它是布林值，用於控制顯示儀表板的詳細程度。上述程式碼中我們設定為 False，會得到一個報告如下，裡面詳細分析了訓練集和測試集的『特徵欄位』和『標籤』的分佈差異情況：

我們也可以透過下列程式碼去開啟看板和儲存html報告。

iris_target_drift_dashboard.show()
iris_target_drift_dashboard.save('iris_target_drift.html')

參考資料

? Equifax issued wrong credit scores for millions of consumers：https://www.cnn.com/2022/08/03/business/equifax-wrong-credit-scores/index.html
? Kolmogorov-Smirnov 檢驗：https://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
? 卡方檢驗：https://en.wikipedia.org/wiki/Chi-squared_test
? Jensen-Shannon 散度：https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence
? Wasserstein 距離：https://en.wikipedia.org/wiki/Wasserstein_metric

灰色產業的陰影中，CDKey成了罪魁禍首
2019-08-06
產業
context canceled，誰是罪魁禍首？
2021-12-23
Context
Onagofly被告上法庭，眾籌無人機神話隕落
2018-04-17
Go無人機
Science子刊：男性更易患癌的罪魁禍首是雄激素！
2022-05-31
什麼原因才是阻礙Linux桌面發展的罪魁禍首
2021-03-06
Linux
你絕對猜不到全球鉛中毒事件的罪魁禍首
2025-01-12
事件
2019 App Store 全回顧：2019全年下架87w+款App，後設資料成罪魁禍首
2020-01-03
APP
何必冥思苦想，直播app開發中延遲的“罪魁禍首”在這
2020-12-08
APP
Nature：戒菸後體重增加的罪魁禍首可能在於腸道微生物
2021-12-19
埃森哲遭勒索5000萬美元，深信服捕獲罪魁禍首Lockbit 2.0變種
2021-08-18
戒菸會發胖？體重增加的罪魁禍首可能在於腸道微生物
2022-02-21
Facebook遭遇有史以來最嚴重當機事件，罪魁禍首與DNS故障有關？
2021-10-13
事件DNS
金融科技測評助力金融資料安全共享
2022-12-28
中國“礦業”巨頭Bitmain，超過500萬美元比特幣被盜，起訴罪魁禍首
2018-11-13
AI比特幣
Google Play更新打分規則：新版本評分影響更大
2019-05-09
Go
Saber interactive CEO：Metacritic的評分不再影響遊戲銷量
2022-05-25
遊戲
菲律賓金融服務公司資料洩露影響90萬客戶
2019-01-21
Raymond James：經濟增長放緩的“罪魁禍首”可能是“吝嗇的”千禧一代
2019-10-08
艾奧瓦州立大學：約500萬美國人有睡眠問題手機可能是罪魁禍首
2019-11-18
信用算力實現金融級資料服務的實踐
2019-04-04
UPnP協議CallStranger漏洞影響數百萬裝置
2020-07-06
協議Ranger
百萬級資料遷移方案測評小記
2020-06-29
業務資料抓取的影響
2022-01-17
NVM作為主存上對資料庫管理系統的影響
2019-11-01
資料庫
淺談疫情對消費金融的影響
2020-02-27
大資料教程之大資料的影響二
2020-06-02
大資料
如何通過資料管理影響資料質量
2022-06-06
評《資料原生的金融技術架構》
2022-09-09
架構
Expedia 旗下線上旅行社 “Orbitz” 88 萬使用者信用卡資料洩露
2018-03-22
ORB
記憶體安全週報第110期 | Uber認為最近的安全漏洞罪魁禍首是 LAPSUS$ 駭客組織
2022-09-26
記憶體
蘋果曝硬體級不可修復漏洞：數百萬臺產品受影響，攻擊者可獲得密碼、信用卡等資訊
2020-08-03
蘋果密碼
《資料出境安全評估辦法》正式實施，將會給資料安全產業帶來哪些影響？
2022-09-05
產業
都是髒資料惹的禍
2019-04-26
加拿大信用合作社巨頭Desjardins資料洩露超過預期，影響420萬客戶
2019-11-03
JAR
大資料資源爭奪戰此起彼伏，對使用者而言是福是禍
2018-03-07
大資料
Steam解釋使用者評價對遊戲推薦演算法的影響
2019-05-24
遊戲演算法
有效利用，你的信用價值何止百萬？
2019-01-21
叫車應用Careem資料遭洩露受影響使用者達1400萬
2018-04-25

2022！影響百萬使用者金融信用評分，Equifax被告上法庭，罪魁禍首——『資料漂移』！⛵

? 資料漂移

? 真實案例

? 資料漂移

? 何為資料漂移

? 檢測方法概述

? 程式碼實現

? 資料漂移檢測

參考資料

相關文章