【Bias 05】Representation Learning with Statistical Independence to Mitigate Bias

zzl_1998發表於2020-11-26

 

Abstract

偏見是當前機器學習面對的主要問題之一,表現在從醫學研究中變數的虛假關聯,到性別或面部識別系統中的種族偏見。但是在資料預處理階段控制所有的偏見是笨重,甚至不可能的,因此需要在現有資料的基礎上,建立公平學習特徵的模型。

本文基於對抗訓練建立模型,用兩個競爭目標去學習特徵,使得:(1)最大化對應任務的區分能力;(2)最小化偏見的statistical mean dependence。

具體來說,包含一個新的adversarial loss function,該損失鼓勵去掉偏見和學習特徵之間的關聯性。

作者在人造資料、medical images(task bias)和性別分類(dataset bias)中實驗,結果顯示通過本文方法學習的特徵有更好的表現,同時去除了偏見。

 

Introduction

  • Bias: one or a set of extraneours protected variables that distort the relationship between the input (independent) and output (dependent) variables
  • protected variabsles: variables that define the bias.
  • statistical mean independence: adversarial minimization of the linear correlation can remove non-linear association between the learned representations and protected variables, thus achieving statistical mean independence.

1. 本文認為Bias分為兩類:Dataset bias和dataset bias。

  • 其中dataset bias通常表現為缺少足夠的資料,例如,對於一個通過人臉預測性別的模型,可能在不同人種中表現不一,這體現在不同人種的訓練資料量不同。
  • task bias,表現在對於神經成像應用,一些人口統計學上的變數,例如性別、年齡都會影響模型的輸入:神經成像,和輸出:診斷。

2. CNN通常用於提取圖片特徵,類似於其他機器學習方法,當不加以控制時,CNN傾向於捕捉偏見。

3. 近期的工作聚焦在:

  • causal effect of bias on database
  • learning fair models with de-biased representations based on developments in invariant feature learning
  • learning fair models with de-biased representations based on developments in domain adversarial learning

4. 本文,我們提出一個representation learning scheme,學習帶有最少偏見的特徵,本文的方法受啟發於domain-adversarial training approaches [20] with controllable invariance [55] within the context of GANs [22].

  • 我們基於true和bias的預測值之間的Pearson 關係建立一個adversarial loss function。
  • 我們理論上證明了線性關係的adversarial minimization可以消除特徵和bias之間的非線性關聯,實現statistical mean independence。
  • 我們的框架類似adversarial invariant feature learning works.
  • 我們在Magnetic Resonance Images (MRIs)和Gender shades Pilot Parliaments Benchmark (GS-PPB) dataset上進行了測試。

 

Related Work

1. 機器學習中的偏見。近期解決這個問題的方法在:(1)建立更公平的資料集;(2)通過驗證特徵是否預測真實的輸出,從現有資料中學習公平的特徵。但是這類方法不能應用到連續變數上。

2. Domain-Adversarial Training:[20]使用對抗訓練去做域適應任務,通過使用學習特徵去預測域標籤(二值變數:source或target),其他方法在損失函式,域discriminator設定或自洽上進行了修改。該方法致力於close the domain gap(通過被編碼為一個二元變數)。

3. Invariant Representation Learning:這類方法旨在學習到一種“表示形式”,這種表示形式對資料的特別因素是不變的。(例如Bias 04,通過解耦place feature和appearance feature,得到相對穩定的representation)。例如:[58]使用一種資訊模糊方法(information obfuscation approach),模糊處理訓練時偏見資料的關聯;[6, 40]引入一種正則化方法。[55]提出使用domain-adversarial訓練策略去學習invariant feature。[43, 52]使用基於和域適應相似的損失函式來實現對抗技術,去預測準確的bias變數,例如52使用binary cross-entropy去移除性別的影響,[43]用linear和kernelized最小平方預測作為對抗部分。

 

 

 

相關文章