聯邦學習是一個機器學習框架,它允許使用者使用分佈在不同位置的多個資料集來訓練機器學習模型,同時防止資料洩露並遵守嚴格的資料隱私法規。
能夠防止資料洩露!這也意味著聯邦學習或許是解決資料敏感的重要途徑。
聯邦學習指多個客戶端(如移動裝置或整個組織)在一箇中央伺服器(如服務提供商)下協作式地訓練模型的機器學習設定,該設定同時保證訓練資料去中心化。聯邦學習使用區域性資料收集和最小化原則,降低傳統中心化機器學習方法帶來的一些系統性隱私風險和成本。
聯邦學習這一術語由 McMahan 等人在 2016 年首次提出,但是在這一術語誕生之前,已經就存在了大量相關研究工作致力於資料隱私保護,例如20世紀80年代就已出現的計算加密資料的加密方法。
聯邦學習最初只是強調移動和邊緣裝置應用,研究者並把這兩種設定分別稱作跨裝置(cross-device)和cross-silo。基於這兩種變體,這篇論文給聯邦學習下了一個更加廣泛的定義:
聯邦學習是多個實體(客戶端)協作解決機器學習問題的機器學習設定,它在一箇中央伺服器或服務提供商的協調下進行。每個客戶端的原始資料儲存在本地,無法交換或遷移,聯邦學習利用區域性更新(用於立即聚合 (immediate aggregation))來實現學習目標。
近年來,聯邦學習的話題在工業界和學術界都經歷了爆炸性的增長。聯邦學習在其他學科領域也逐漸擴大著影響力: 從機器學習到優化、資訊理論和統計到密碼學、公平性和隱私。
資料隱私不是二元的,不同假設下的威脅模型,每一個模型都有其獨特的挑戰。