DeepMind依靠CBN統計方法來構建公平的機器學習模型

banq發表於2020-10-25

機器學習系統可以做出決策而不會受到人類主觀性的影響,但是,該論點僅部分正確。雖然機器學習系統不能根據感覺或情感來做出決定,但它們確實透過訓練資料集繼承了很多人為偏見。
偏見很重要,因為它會導致不公平,在過去的幾年中,可以減輕偏見的影響並提高機器學習系統的公平性的技術開發方面已取得了許多進步。幾個月前,  DeepMind發表了一篇研究論文,提議使用一種稱為因果貝葉斯網路(CBN)的舊統計技術來構建更公平的機器學習系統
我們如何在機器學習系統的背景下定義公平性?人類通常根據主觀標準來定義公平。在機器學習模型的上下文中,公平性可以表示為敏感屬性(種族,性別...)與模型輸出之間的關係。儘管方向正確,但該定義尚不完整,因為如果不考慮模型的資料生成策略就無法評估公平性。大多數公平性定義表示模型輸出相對於敏感資訊的屬性,而沒有考慮資料生成機制所依據的相關變數之間的關係。
由於不同的關係需要模型滿足不同的屬性才能公平起見,這可能導致錯誤地歸類為表現出不良/合法偏見的公平/不公平模型。從這個角度來看,識別資料生成機制中的不公平路徑與理解模型本身一樣重要。
瞭解有關分析機器學習模型中的公平性的另一個相關要點是,它的特徵擴充套件到技術構造之外,並且通常涉及社會學概念。從這個意義上講,視覺化資料集是識別潛在偏見和不公平現象的重要組成部分。從市場上不同的框架中,DeepMind依靠一種稱為 因果 貝葉斯 網路 (CBN)的方法來表示和估計大資料集中的不公平性。
 

因果貝葉斯網路(CBN)
因果貝葉斯網路(CBN)是一種統計技術,用於使用圖結構表示因果關係。從概念上講,CBN是由表示隨機變數的節點形成的圖,這些節點由表示因果影響的連結連線。DeepMind方法的新穎之處在於使用CBN對資料集中不公平屬性的影響進行建模。透過將不公平定義為來自圖中敏感屬性的有害影響的存在,CBN提供了簡單直觀的視覺表示,用於描述資料集基礎下的不同可能的不公平情形。此外,CBN為我們提供了一個強大的定量工具,可用 來測量資料集中的不公平現象,並幫助研究人員開發解決不公平現象的技術。
CBN的一個更正式的數學定義是一個由節點組成的圖,這些節點代表因果關係連結的各個變數。在CBN結構中,從節點X到節點Z的路徑定義為從X開始到Z結束的一系列連結節點。 如果存在從X到Z的因果 路徑 ,則X是Z的原因(有影響)。

詳細點選標題
 


 

相關文章