【Bias 05】Representation Learning with Statistical Independence to Mitigate Bias
Abstract
偏見是當前機器學習面對的主要問題之一,表現在從醫學研究中變數的虛假關聯,到性別或面部識別系統中的種族偏見。但是在資料預處理階段控制所有的偏見是笨重,甚至不可能的,因此需要在現有資料的基礎上,建立公平學習特徵的模型。
本文基於對抗訓練建立模型,用兩個競爭目標去學習特徵,使得:(1)最大化對應任務的區分能力;(2)最小化偏見的statistical mean dependence。
具體來說,包含一個新的adversarial loss function,該損失鼓勵去掉偏見和學習特徵之間的關聯性。
作者在人造資料、medical images(task bias)和性別分類(dataset bias)中實驗,結果顯示通過本文方法學習的特徵有更好的表現,同時去除了偏見。
Introduction
- Bias: one or a set of extraneours protected variables that distort the relationship between the input (independent) and output (dependent) variables
- protected variabsles: variables that define the bias.
- statistical mean independence: adversarial minimization of the linear correlation can remove non-linear association between the learned representations and protected variables, thus achieving statistical mean independence.
1. 本文認為Bias分為兩類:Dataset bias和dataset bias。
- 其中dataset bias通常表現為缺少足夠的資料,例如,對於一個通過人臉預測性別的模型,可能在不同人種中表現不一,這體現在不同人種的訓練資料量不同。
- task bias,表現在對於神經成像應用,一些人口統計學上的變數,例如性別、年齡都會影響模型的輸入:神經成像,和輸出:診斷。
2. CNN通常用於提取圖片特徵,類似於其他機器學習方法,當不加以控制時,CNN傾向於捕捉偏見。
3. 近期的工作聚焦在:
- causal effect of bias on database
- learning fair models with de-biased representations based on developments in invariant feature learning
- learning fair models with de-biased representations based on developments in domain adversarial learning
4. 本文,我們提出一個representation learning scheme,學習帶有最少偏見的特徵,本文的方法受啟發於domain-adversarial training approaches [20] with controllable invariance [55] within the context of GANs [22].
- 我們基於true和bias的預測值之間的Pearson 關係建立一個adversarial loss function。
- 我們理論上證明了線性關係的adversarial minimization可以消除特徵和bias之間的非線性關聯,實現statistical mean independence。
- 我們的框架類似adversarial invariant feature learning works.
- 我們在Magnetic Resonance Images (MRIs)和Gender shades Pilot Parliaments Benchmark (GS-PPB) dataset上進行了測試。
Related Work
1. 機器學習中的偏見。近期解決這個問題的方法在:(1)建立更公平的資料集;(2)通過驗證特徵是否預測真實的輸出,從現有資料中學習公平的特徵。但是這類方法不能應用到連續變數上。
2. Domain-Adversarial Training:[20]使用對抗訓練去做域適應任務,通過使用學習特徵去預測域標籤(二值變數:source或target),其他方法在損失函式,域discriminator設定或自洽上進行了修改。該方法致力於close the domain gap(通過被編碼為一個二元變數)。
3. Invariant Representation Learning:這類方法旨在學習到一種“表示形式”,這種表示形式對資料的特別因素是不變的。(例如Bias 04,通過解耦place feature和appearance feature,得到相對穩定的representation)。例如:[58]使用一種資訊模糊方法(information obfuscation approach),模糊處理訓練時偏見資料的關聯;[6, 40]引入一種正則化方法。[55]提出使用domain-adversarial訓練策略去學習invariant feature。[43, 52]使用基於和域適應相似的損失函式來實現對抗技術,去預測準確的bias變數,例如52使用binary cross-entropy去移除性別的影響,[43]用linear和kernelized最小平方預測作為對抗部分。
相關文章
- 機器學習《Machine Learning》筆記--偏差(Bias)和方差(Variance)機器學習Mac筆記
- HyperWorks中的Size and bias 子皮膚
- 【論文筆記】 Popularity Bias in Dynamic Recommendation筆記
- 機器學習中偏差bias和方差variance區別機器學習
- An Attentive Inductive Bias for Sequential Recommendation beyond the Self-Attention
- 【題解】程式設計作業ex5: Regularized Linear Regression and Bias/Variance (Machine Learning)程式設計ZedMac
- Android開發 - 掌握ConstraintLayout(五)偏差(Bias)AndroidAI
- machine learning model(algorithm model) .vs. statistical modelMacGo
- AI學習筆記——Bias and Variance tradeoff (方差偏差的平衡)AI筆記
- 機器學習中學習曲線的 bias vs variance 以及 資料量m機器學習
- UnityApplyLinearShadowBias -- Unity中計算陰影bias的方法UnityAPP
- 論文閱讀 Inductive Representation Learning on Temporal Graphs
- 閱讀翻譯Mathematics for Machine Learning之2.5 Linear IndependenceMac
- 論文解讀(BGRL)《Bootstrapped Representation Learning on Graphs》bootAPP
- 今日面試題分享:解決bias和Variance問題的方法是什麼?面試題
- 【TensorFlow基礎】tf.add 和 tf.nn.bias_add 的區別
- Evolving Losses for Unsupervised Video Representation LearningIDE
- 論文解讀(SUGRL)《Simple Unsupervised Graph Representation Learning》
- [Paper Reading] VQ-VAE: Neural Discrete Representation Learning
- 論文閱讀-Causality Inspired Representation Learning for Domain GeneralizationAI
- 機器學習中的Bias(偏差),Error(誤差),和Variance(方差)有什麼區別和聯絡?機器學習Error
- 【論文研讀】通過deep representation learning軌跡聚類聚類
- 論文解讀(GRACE)《Deep Graph Contrastive Representation Learning》AST
- Momentum Contrast (MoCo) for Unsupervised Visual Representation LearningAST
- Multi-Patch Prediction Adapting LLMs for Time Series Representation LearningAPT
- 演算法崗面試題:模型的bias和variance是什麼?用隨機森林舉例演算法面試題模型隨機森林
- 論文解讀(GMI)《Graph Representation Learning via Graphical Mutual Information Maximization》ORM
- 論文解讀(MVGRL)Contrastive Multi-View Representation Learning on GraphsASTView
- 論文解讀(S^3-CL)《Structural and Semantic Contrastive Learning for Self-supervised Node Representation Learning》StructAST
- Beyond Fixed Grid: Learning Geometric Image Representation with a Deformable Grid——論文閱讀ORM
- statistical_c03
- 論文解讀(GRCCA)《 Graph Representation Learning via Contrasting Cluster Assignments》AST
- Text Representation
- 論文解讀GALA《Symmetric Graph Convolutional Autoencoder for Unsupervised Graph Representation Learning》
- [論文閱讀筆記] metapath2vec: Scalable Representation Learning for Heterogeneous Networks筆記
- 論文解讀(USIB)《Towards Explanation for Unsupervised Graph-Level Representation Learning》
- 機器學習學習筆記:sklearn.preprocessing.PolynomialFeatures偏置值inlude_bias設定,以及在Pipeline中的設定機器學習筆記
- statistical thinking in Python EDAThinkingPython