AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
江中華,浙江大學軟體學院碩士生二年級,導師為張聖宇老師。研究方向為大小模型端雲協同計算。張聖宇,浙江大學平臺「百人計劃」研究員。研究方向包括大小模型端雲協同計算,多媒體分析與資料探勘。
隨著機器學習技術的發展,隱私保護和分散式最佳化的需求日益增長。聯邦學習作為一種分散式機器學習技術,允許多個客戶端在不共享資料的情況下協同訓練模型,從而有效地保護了使用者隱私。然而,每個客戶端的資料可能各不相同,有的資料量大,有的資料量小;有的資料特徵豐富,有的資料特徵單一。這種資料的異質性和不平衡性(Non-IID)會導致一個問題:本地訓練的客戶模型忽視了全域性資料中明顯的更廣泛的模式,聚合的全域性模型可能無法準確反映所有客戶端的資料分佈,甚至可能出現「辛普森悖論」—— 多端各自資料分佈趨勢相近,但與多端全域性資料分佈趨勢相悖。
為了解決這一問題,來自浙江大學人工智慧研究所的研究團隊提出了 FedCFA,一個基於反事實學習的新型聯邦學習框架。
FedCFA 引入了端側反事實學習機制,透過在客戶端本地生成與全域性平均資料對齊的反事實樣本,緩解端側資料中存在的偏見,從而有效避免模型學習到錯誤的特徵 - 標籤關聯。該研究已被 AAAI 2025 接收。
論文標題:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning 論文連結:https://arxiv.org/abs/2412.18904 專案地址:https://github.com/hua-zi/FedCFA