【Bias 05】Representation Learning with Statistical Independence to Mitigate Bias
本文基於對抗訓練建立模型,用兩個競爭目標去學習特徵,使得:(1)最大化對應任務的區分能力;(2)最小化偏見的statistical mean dependence。
具體來說,包含一個新的adversarial loss function,該損失鼓勵去掉偏見和學習特徵之間的關聯性。
作者在人造資料、medical images(task bias)和性別分類(dataset bias)中實驗,結果顯示通過本文方法學習的特徵有更好的表現,同時去除了偏見。
- Bias: one or a set of extraneours protected variables that distort the relationship between the input (independent) and output (dependent) variables
- protected variabsles: variables that define the bias.
- statistical mean independence: adversarial minimization of the linear correlation can remove non-linear association between the learned representations and protected variables, thus achieving statistical mean independence.
1. 本文認為Bias分為兩類:Dataset bias和dataset bias。
- 其中dataset bias通常表現為缺少足夠的資料,例如,對於一個通過人臉預測性別的模型,可能在不同人種中表現不一,這體現在不同人種的訓練資料量不同。
- task bias,表現在對於神經成像應用,一些人口統計學上的變數,例如性別、年齡都會影響模型的輸入:神經成像,和輸出:診斷。
2. CNN通常用於提取圖片特徵,類似於其他機器學習方法,當不加以控制時,CNN傾向於捕捉偏見。
3. 近期的工作聚焦在:
- causal effect of bias on database
- learning fair models with de-biased representations based on developments in invariant feature learning
- learning fair models with de-biased representations based on developments in domain adversarial learning
4. 本文,我們提出一個representation learning scheme,學習帶有最少偏見的特徵,本文的方法受啟發於domain-adversarial training approaches [20] with controllable invariance [55] within the context of GANs [22].
- 我們基於true和bias的預測值之間的Pearson 關係建立一個adversarial loss function。
- 我們理論上證明了線性關係的adversarial minimization可以消除特徵和bias之間的非線性關聯,實現statistical mean independence。
- 我們的框架類似adversarial invariant feature learning works.
- 我們在Magnetic Resonance Images (MRIs)和Gender shades Pilot Parliaments Benchmark (GS-PPB) dataset上進行了測試。
Related Work
1. 機器學習中的偏見。近期解決這個問題的方法在:(1)建立更公平的資料集;(2)通過驗證特徵是否預測真實的輸出,從現有資料中學習公平的特徵。但是這類方法不能應用到連續變數上。
2. Domain-Adversarial Training:[20]使用對抗訓練去做域適應任務,通過使用學習特徵去預測域標籤(二值變數:source或target),其他方法在損失函式,域discriminator設定或自洽上進行了修改。該方法致力於close the domain gap(通過被編碼為一個二元變數)。
3. Invariant Representation Learning:這類方法旨在學習到一種“表示形式”,這種表示形式對資料的特別因素是不變的。(例如Bias 04,通過解耦place feature和appearance feature,得到相對穩定的representation)。例如:[58]使用一種資訊模糊方法(information obfuscation approach),模糊處理訓練時偏見資料的關聯;[6, 40]引入一種正則化方法。[55]提出使用domain-adversarial訓練策略去學習invariant feature。[43, 52]使用基於和域適應相似的損失函式來實現對抗技術,去預測準確的bias變數,例如52使用binary cross-entropy去移除性別的影響,[43]用linear和kernelized最小平方預測作為對抗部分。
