在 Hub 上使用 Presidio 進行自動 PII 檢測實驗

HuggingFace發表於2024-07-31

我們在 Hugging Face Hub 上託管的機器學習 (ML) 資料集中發現了一個引人關注的現象: 包含個人未經記錄的私密資訊。這一現象為機器學習從業者帶來了一些特殊挑戰。

在本篇部落格中,我們將深入探討含有一種稱為個人識別資訊 (PII) 的私密資訊的各類資料集,分析這些資料集存在的問題,並介紹我們在資料集 Hub 上正在測試的一個新功能,旨在幫助應對這些挑戰。

包含個人識別資訊 (PII) 的資料集型別

我們注意到包含個人識別資訊 (PII) 的資料集主要有兩種型別:

  1. 標註的 PII 資料集: 例如由 Ai4Privacy 提供的 PII-Masking-300k,這類資料集專門用於訓練 PII 檢測模型。這些模型用於檢測和掩蓋 PII,可以幫助進行線上內容稽核或提供匿名化的資料庫。
  2. 預訓練資料集: 這些通常是大規模的資料集,往往有數 TB 大小,通常透過網路爬蟲獲得。儘管這些資料集一般會過濾掉某些型別的 PII,但由於資料量龐大和 PII 檢測模型的不完善,仍可能有少量敏感資訊遺漏。

機器學習資料集中的個人識別資訊 (PII) 面臨的挑戰

機器學習資料集中存在的個人識別資訊 (PII) 會為從業者帶來幾個挑戰。首先,它引發了隱私問題,可能被用來推斷個人的敏感資訊。

此外,如果未能妥善處理 PII,它還可能影響機器學習模型的效能。例如,如果一個模型是在包含 PII 的資料集上訓練的,它可能學會將特定的 PII 與特定的結果關聯起來,這可能導致預測偏見或從訓練集生成 PII。

資料集 Hub 上的新實驗: Presidio 報告

為了應對這些挑戰,我們正在資料集 Hub 上試驗一項新功能,使用 Presidio——一種開源的最先進的個人識別資訊 (PII) 檢測工具。Presidio 依賴檢測模式和機器學習模型來識別 PII。

透過這個新功能,使用者將能夠看到一個報告,估計資料集中 PII 的存在情況。這一資訊對於機器學習從業者非常有價值,幫助他們在訓練模型前做出明智的決策。例如,如果報告指出資料集包含敏感的 PII,從業者可能會選擇使用像 Presidio 這樣的工具進一步過濾資料集。

資料集所有者也可以透過使用這些報告來驗證他們的 PII 過濾流程,從而在釋出資料集之前受益於這一功能。

Presidio 報告的一個示例

讓我們來看一個關於這個 預訓練資料集 的 Presidio 報告的示例:

Presidio report

在這個例子中,Presidio 檢測到資料集中有少量的電子郵件和敏感個人識別資訊 (PII)。

結論

機器學習資料集中個人識別資訊 (PII) 的存在是機器學習社群不斷髮展的挑戰之一。 在 Hugging Face,我們致力於保持透明度,並幫助從業者應對這些挑戰。 透過在資料集 Hub 上試驗諸如 Presidio 報告之類的新功能,我們希望賦予使用者做出明智決策的能力,並構建更健壯、更符合道德標準的機器學習模型。

我們還要感謝國家資訊與自由委員會 (CNIL) 對 GDPR 合規性的幫助。 他們在指導我們應對人工智慧和個人資料問題的複雜性方面提供了寶貴的幫助。 請在 這裡 檢視他們更新的人工智慧操作指南。

敬請期待更多關於這一激動人心發展的更新!


英文原文: https://hf.co/blog/presidio-pii-detection

原文作者: Quentin Lhoest, Margaret Mitchell, Omri M, Omri Mendels

譯者: Evinci

相關文章