Client Selection in Federated Learning: Principles, Challenges, and Opportunities
一、摘要
大量的工作旨在解決FL訓練的不同方面,如最佳化聚合方法[7],[8],增強隱私保護[9],[10]和改進魯棒性[11]。
一個有效的FL客戶端選擇方案可以顯著提高模型的準確性[16],增強公平性[24],增強魯棒性[18],並減少訓練開銷[22]。
二、異質性 heterogeneity
2.1 系統的異構性
計算能力
通訊能力
其他因素:如電池電量低、後臺執行許多應用程式
2.2 統計異質性
大規模分散式資料,FL客戶端的數量遠遠大於客戶端的平均資料點數量。例如,一百萬部智慧手機參與了谷歌鍵盤查詢建議專案[47],但一個使用者通常每天最多隻提出幾十個查詢
資料不平衡
非IID資料
三、效用
每輪根據客戶端的“效用”排序客戶端,選擇效用最大的客戶端
效應=統計效用*系統效用
3.1 統計效用:
3.1.1 基於資料樣本的效用度量
基於資料樣本的效用利用客戶端的本地資料來量化統計效用
(1)根據資料集數量\(|D_i|\)
當每個資料樣本具有相同的質量時,這種方法是有效的
(2)資料樣本的重要性抽樣
這個想法是給偏離模型很遠的資料樣本分配一個高重要性分數。