# 聯邦學習為公平性研究提供了幾個思考 #
機器學習模型的表現經常會令人驚訝。當這些行為模型對使用者非常不友好時,研究者會將其歸為不公平。例如,如果具有相似特徵的人得到了完全不同的結果,那麼這就違反了個體公平的標準。如果某些敏感群體(種族、性別等)得到不同的結果,那麼這可能違反人口統計學公平的各種標準........
訓練資料中的偏差:機器學習模型中不公平的一個驅動因素是訓練資料中的偏差,包括認知抽樣、報告和確認偏差。一種常見的現象是個別特徵資料在總的資料集中代表性不足,因此模型訓練過後得到的權重並不能代表問題。就像聯合學習中使用的資料訪問過程可能會引入資料集移位和非獨立性一樣。
公平而不獲取敏感屬性:明確獲取人口統計資訊,例如種族、性別等會引發關於公平性標準的討論,當個人敏感屬性不可用時,經常部署聯邦學習的環境也會引起對公平性的討論,例如開發個性化的語言模型和公平的醫學分類器。所以測量和糾正不公平是聯合學習研究人員要解決的一個關鍵問題。
公平、隱私和穩健:公平和資料隱私似乎是互補的倫理概念,在許多需要隱私保護的現實環境中,公平也是非常需要的。由於聯合學習最有可能部署在隱私和公平都需要的敏感資料環境中,因此解決公平和隱私問題至關重要。
利用聯邦提高模式多樣性:聯合學習提供的分散式訓練將以前可能不切實際甚至非法地資料,都能合理的利用起來。當前的一些資料隱私保護法已經逼得企業在資料孤島中建模。另外,訓練資料中缺乏代表性和多樣性會導致模型效能的下降,聯邦學習能夠組合可能已經與敏感屬性相關的資料來改善這些模型的公平性,進而提高模型的效能。