一文讀懂機器學習中的模型偏差

人工智慧頻道發表於2018-10-16

在人工智慧(AI)和機器學習(ML)領域,將預測模型參與決策過程的手段越來越常見,但難點是決策者需要確保這些模型不會根據模型預測做出偏見或者不公平的決策(有意或無意的歧視)。設想一下銀行業、保險業和就業等行業,在確定面試候選人、批准貸款/信貸、額定保險費等環節中使用模型作為解決方案,如果最終決策出現偏差,對終端使用者造成的傷害有多大?因此,對於研究ML問題的產品經理、業務分析師和資料科學家來說,理解模型預測偏差的不同細微差至關重要。

什麼是ML模型的公平和偏差

機器學習模型中的偏差是由缺乏足夠的特徵和用於訓練模型的相關資料集不全面引起的。鑑於用於訓練模型的特徵和相關資料是由人類設計和收集的,資料科學家和產品經理的偏見可能會影響訓練模型的資料準備。例如:在收集資料特徵的過程中,遺漏掉一個或多個特徵 ,或者用於訓練的資料集的覆蓋範圍不夠。換句話說,模型可能無法正確捕獲資料集中存在的基本規則,由此產生的機器學習模型最終將出現偏差(高偏差)。

可以通過以下幾個方面進一步理解機器學習模型偏差:

  • 缺乏適當的功能可能會產生偏差。這樣的模型是欠擬合的,即模型表現出高偏差和底方差。

  • 缺乏適當的資料集:儘管功能是適當的,但缺乏適當的資料也會導致偏見。大量不同性質的(覆蓋不同場景的)資料可以解決偏差問題。然而,必須注意避免過度高方差,這可能會影響模型效能,因為模型無法推廣所有型別的資料集。

如果發現模型具有高偏差,則該模型將被稱為不公平,反之亦然。需注意的是,減少偏差的嘗試可能會導致具有高方差的高複雜度模型。下圖代表了模型在偏差和方差方面的複雜性。

注意:隨著偏差的減小,模型越來越複雜,可能會出現高方差。


如何測試ML模型的公平/偏差

想要測試ML模型是公平的還是存在偏見的,首先要了解模型的偏見程度。常見的方法是確定輸入值(與特徵相關)在模型預測/輸出上的相對重要性。確定輸入值的相對重要性將有助於使模型不過度依賴於討論部分的受保護屬性(年齡、性別、顏色、教育等)。其他技術包括審計資料分析、ML建模流水線等。

為了確定模型偏差和相關的公平性,可以使用以下框架:

  • Lime

  • FairML

  • SHAP

  • Google What-If

  • IBM Bias Assessment Toolkit

偏差的特徵和屬性

以下是導致偏差的常見屬性和特徵

  • 種族

  • 性別

  • 顏色

  • 宗教

  • 國籍

  • 婚姻狀況

  • 性取向

  • 教育背景

  • 收入來源

  • 年齡

考慮到上述特性相關的資料可能導致的偏差,我們希望採用適當的策略來訓練和測試模型和相關效能。

AI偏見在行業中的示例

銀行業務:由於系統中引入的模型,其訓練資料(如性別、教育、種族、地點等)存在偏見,導致一個有效的貸款申請人貸款請求被拒。或者一個申請人的貸款請求被批准,但其實他並不符合批准標準。

保險:因為預測模型資料集涵蓋的特徵不齊全,導致一個人被要求支付高額的保險費。

就業:一個存在偏見的機器學習模型,根據候選人的種族、膚色等屬性錯誤的篩選候選人的簡歷,導致有資質的候選人被篩選掉,致使公司錯失聘用優秀候選人的機會。

住房:在住房領域,可能會因為位置、社群、地理等相關資料,在引入過程中出現偏差,導致模型具有高偏見,對房價做出了錯誤的預測,最後致使業主和客戶(買方)失去交易機會。

欺詐(刑事/恐怖分子):由於訓練模型對種族、宗教、國籍等特徵存在偏見,將一個沒有犯過罪行的人歸類為潛在罪犯且進行審問。例如,在某些國家或地區,某一宗教人士被懷疑成恐怖組織。目前,這變成了個人偏見的一部分,而這種偏見在模型中反應了出來。

政府:假設政府給某一特定人群設定政策,機器學習負責對這些計劃中的收益人群進行分類。模型偏見可能會導致本應該享受相關政策的人群沒有享受到政策,而沒有資格享受相關政策的人卻成為政策受益人。

教育:假設一位學生的入學申請因為基礎的機器學習模型偏見被拒絕,而原因是因為使用模型訓練的資料集不全。

金融:在金融行業中,使用有偏差的資料建立的模型會導致誤批申請者的貸款請求,而違反《平等信貸機會法》。而且,誤批之後,使用者會對最終結果提出質疑,要求公司對未批准原因進行解釋。

1974年,法律規定,禁止金融信用因為種族、膚色、宗教、性別等屬性歧視任何人和組織。在模型構建的過程中,產品經理(業務分析師)和資料科學家需要儘可能考慮所有可能情況,確保構建模型(訓練或測試)的資料的通用和準確,無意中的一絲細節就可能導致偏見。

總結

通過閱讀本文,您瞭解了機器學習模型偏差、偏差相關的屬性和特徵以及模型偏差在不同行業中的示例。導致偏差的原因可能是因為產品經理或資料科學家在研究機器學習問題時,對資料特徵、屬性以及用於模型訓練的資料集概括不全面,導致機器學習模型無法捕獲重要特徵並覆蓋所有型別的資料來訓練模型。具有高偏見的機器學習模型可能導致利益相關者採取不公平/有偏見的決策,會嚴重影響整個交易過程甚至是最終客戶的利益。

來自 “ DZone ”,原文連結:http://blog.itpub.net/31545819/viewspace-2216526/,如需轉載,請註明出處,否則將追究法律責任。

相關文章