A review of applications in federated learning
Authors | Li Li, Yuxi Fan, Mike Tse, Kuo-Yi Lin |
---|---|
Keywords | Federated learning; Literature review; Citation analysis; Research front |
Abstract | FL是一種協作地分散式隱私保護技術,它的目標是克服資料孤島與資料隱私的挑戰。本研究旨在回顧目前在工業工程中的應用,以指導未來的落地應用。本研究還指出了六個研究前沿以解決FL文獻並幫助推進對FL的理解,便於未來優化。 |
Publication | Computers & Industrial Engineering 2020 |
DOI | 10.1016/j.cie.2020.106854 |
1 Introduction
隨著資料科學的發展,在該領域主要有兩個挑戰:
- 資料治理是最重要的方面。在2018歐盟出臺GDPR法規後,未經使用者允許任何機構與組織不能使用使用者資料,使用者成為了自己資料絕對的主人。
- 資料孤島也是一個正在面臨的問題。由於資料量越大模型效果越好,所以資料孤島現象限制了現代工業的發展。
另外,在一些有效資料很少的領域例如醫療業,資料標註依賴於經驗豐富的工作者。帶標籤資料的匱乏也對工業發展不利。然而,FL的出現恰好克服了這些工業中的挑戰。
FL是一個新興的機器學習方案,旨在解決資料孤島問題的同時保護資料隱私。它涉及多客戶機,配合一個或多箇中心伺服器作為分散的機器學習環境。
FL原本流程如下圖所示,這種FL方法被稱為FedAvg,是很多其他FL研究的基礎(基準、參照物):
- 每個裝置下載一個通用的全域性模型用以接下來的本地訓練。
- 每個裝置用自己的資料訓練模型,然後將相關梯度資訊以加密方式上傳雲端,以優化全域性模型。
- 雲端對各本地模型進行平均更新後,將更新後的全域性模型派遣給各裝置。
- 重複上面的流程直到模型達到一個滿意的效果或最終期限到了。
2 FL概覽
2.1 FL特點
FL與分散式學習關聯很大,傳統的分散式系統由分散式計算和分散式儲存組成。儘管FL大量強調隱私保護,分散式機器學習的最新研究也關注了隱私保護。分散式處理是通過通訊網路在中心伺服器的控制下將不同地方的主機連線起來,以至於每臺計算機可以承擔同一任務的不同部分,最終完成該任務。因此,分散式處理主要是為了加速處理階段。
為了揭露FL與分散式(機器)學習的區別,FL特點列舉如下:
2.1.1 跨組織場景的普遍性
FL可以擴充套件到將跨組織的企業納入聯邦框架。例如,擁有客戶購買力資料的銀行可以與擁有產品特徵資料的電子商務平臺合作,推薦產品。因此,智慧地構建多實體、多資料來源、不同特徵維度的聯合模型。這使所有人都能在保護資料隱私的前提下實現跨平臺和區域共同創造價值。
2.1.2 大量的非獨立同分布資料(Non-IID)
在分散式系統中,主要目的是通過提高並行等級以緩解中心伺服器的計算與儲存壓力。
而在當下可穿戴裝置的時代,每個裝置只生成幾個資料,與總體裝置數量無法相比(言外之意,每個裝置生成的資料量沒那麼大,提高並行性以減輕每個裝置的計算與儲存壓力不是主要矛盾)。所以,FL更適合模型改善。
分散式系統主要工作在均衡分佈的、IID資料上。由於裝置資源的異構性,FL關注於非均衡的、Non-IID資料。
2.1.3 分散技術
從嚴格的技術意義上講,分散化並非完全分散,而是沒有一個明確的中心。結點之間的影響將會通過客戶機組成的網路生成一個非線性的關係。
引數伺服器,一個典型的分散式和集中式的技術,主要利用中心伺服器以獲得高效的協作模型,中心伺服器主要排程資料分佈和計算資源。這種集中式資料處理方法導致了雙倍的通訊負擔,因為如果一些分散在不同資料庫中的資料集被收集用來訓練,首先這些資料就要被拷貝然後傳輸給中心伺服器,接著中心伺服器將分配資料到每個分散式客戶機做分散式計算。這給系統的計算能力、儲存與頻寬增加了額外的嚴峻考驗。
而在FL中,每個客戶機完全自治,資料不被中心分配並且訓練過程不被伺服器掌控。因此,FL是一個整合的技術,它將機器學習模型與資料融合通過分散式的協作結合起來。
2.1.4 每個結點的地位平等
在平等方面,傳統的分散式協作訓練中,任何處理大量資料的結點都佔據主導地位。因此,對有大量標註的資料與圖片的組織機構的偏愛將會對工業領域的協作學習的發展產生不利影響。對於深度學習網路中的聯合訓練,這些有著大資料的機構可以操縱預測模型,因此中小型組織在聯合訓練上沒有動力。(言外之意,傳統的分散式學習中,各結點之間並不平等)
然而,在FL中,由於各方地位平等,這些有小資料的客戶機的地位將被提升。
2.2 開源框架
現有兩個主流開源框架:
- TensorFlow Federated(TFF):為機器學習或分散資料的其他計算需求提供服務(Google,2019)。這是第一個主要為移動裝置在產品層面設計的自包含框架。特別是,TFF整合了FedAvg用於模型更新和安全聚合以解決隱私問題。TTF由FL API和聯邦核心(FC)API組成。具體而言,FL API提供了一組高階介面,使使用者可以應用其中包含的機器學習方法來處理聯邦訓練。FC API是聯邦學習的基礎層,用於分散式計算。
- Federated AI Technology Enabler(FATE):由微眾銀行(Webank)團隊創造的。作為第一個開源工業級框架,它主要用於跨組織架構。它基於同態加密和安全多方計算為客戶端提供了足夠的隱私。此外,各種機器學習演算法,如邏輯迴歸和深度學習,以及遷移學習都可以建立在這個聯邦系統上。除了這些現成的演算法,大多數傳統方法都可以適應這種聯邦框架。
2.3 FL分類
由於被儲存在不同的結點和機構中的資料主要以特徵矩陣形式存在,通常來講資料組成了許多例項,並且矩陣的橫軸被看作客戶,縱軸代表客戶特徵。然後我們就可以基於資料劃分模式分類FL。
2.3.1 橫向FL
在橫向FL中,不同結點資料特徵向量之間有相當的重疊部分,但同時資料在樣本空間上不同。如今,現存FL演算法主要應用在智慧裝置或IOT裝置,這些場景基本上都是橫向FL,Google的安卓移動手機更新的聯邦模型方案(2017)就是典型的橫向FL。
- 另外,為應對受限標籤實體的挑戰,Gao等人(2019)引入分層異構橫向FL框架,通過每次將每個參與者作為目標域進行多次異構域適配,可以解決缺乏標籤的不足。
在現實應用如醫療領域中,大量的工作與資料收集是分不開的,當需要跨區域協作時,對於各醫院來說幾乎不可能去構建一個用於共享的資料池,因此,FL可以為跨區域醫院構建一個聯邦網路(如下圖所示)。
2.3.2 縱向FL
縱向FL適用於資料按照特徵維度縱向劃分的場景,各方在樣本空間上有部分重合,但同時特徵空間不同。
例如,一家醫療機構想要預測糖尿病等疾病,雖然可以從一些粗略維度(年齡、體重等)進行分析,但是由於缺乏資訊無法做到個性化預測。隨著FL的發展,它可以與一些擁有手機應用資料的公司合作,在無需傳輸原始資料的情況下相互協作(如下圖所示)。一般來說,通過抽取具有不同特徵的相同實體進行聯合訓練。
與橫向FL中的情況不同,在一個公共伺服器中聚合所有資料集以從全域性模型中學習在縱向FL中不起作用,因為不同所有者之間的通訊仍然是一個迫切需要解決的問題。
-
Nock等人(2018)提出了一種改進的基於令牌的實體解析演算法,用於預處理垂直分割槽資料。
-
哈迪等人(2017)設計了一個基於線性分類器的端到端方案,並應用加法同態加密為縱向FL防禦誠實但好奇的對手。
-
據報導,目前針對具有公共樣本空間的各方的應用,包括交通違規評估和小企業信用風險評估,都是基於WebBank團隊創造的FATE。
-
Cheng(2019)在垂直分割槽資料集的設定中設計了一個名為SecureBoost的安全框架。然而,上述方法只能應用於簡單的機器學習模型,如logistic迴歸。
因此,縱向FL在更復雜的機器學習方法中仍有更大的改進空間。
2.3.3 聯邦遷移學習
在大多數例項中,各方資料無論在樣本空間還是特徵空間都鮮有重合。因此,這種環境下的主要問題是缺少資料質量差的資料標籤。遷移學習能夠將一個領域(即源領域)的知識轉移到另一個領域(即目標領域),以獲得更好的學習效果。
通過這種方式,Liu等人(2018)構想了聯邦遷移學習(FTL),這是第一個完整的基於遷移學習的棧,包括訓練、評估和交叉驗證,在該框架中採用加法同態加密技術的神經網路不僅可以防止隱私洩露,而且可以提供與傳統非隱私保護方法相當的準確性。
然而,通訊效率仍然是一個問題:
- Sharma等人(2019)努力改進FTL。他們使用祕密共享技術代替HE,在不降低準確率的情況下進一步減少開銷。此外,它還可以擴充套件到阻止惡意伺服器。而在之前的工作中,他們假設模型是半誠實的。
- 對於一個真實的應用程式,陳等人(2019)構建了一個FedHealth模型,該模型通過FL收集不同組織擁有的資料,並通過遷移學習為醫療保健提供個性化服務。
如下圖所示,一家醫院的一些疾病診斷和治療資訊可以通過FTL傳輸到另一家醫院,以幫助其他疾病的診斷。
3 FL演變
FL原始框架是FedAvg,儘管它可以處理一些輕量級的Non-IID資料,但依然面臨著高通訊負載和結構性異構的挑戰。本部分討論FL演化與優化。
3.1 優化
在落地應用的優化方面,高通訊負擔、統計學與結構性異構是研究人員面臨的主要問題。本部分總結了FL的優化路徑與克服挑戰的方法分類。
下圖所示的是FL優化路徑,第一條分支是解決高通訊負擔的,第二條分支是解決統計學異構的,第三條分支是解決結構性異構的。在同樣的分支中,不同的符號代表解決問題的不同方法,連線的粗細表示改論文在Google學術中被引頻率高低。
(1)高通訊代價
到目前為止,FL的關鍵瓶頸是降低通訊負擔。
3.1.1 減少通訊輪
由於不匹配的上傳與下載速度,伺服器與客戶端之間的通訊將盡可能地減少。
- McMahan等人(2017年)的研究被認為是FL方面的開創性工作,通過增加每輪通訊之間每個客戶的計算量來提高通訊效率。他們還指出,增加並行性意味著鼓勵更多客戶參加每輪訓練,是一種有效的方法。
- 受Google的啟發,Nishio等人(2019)構建了FedCs框架,在每輪訓練中最大程度地整合可用客戶,使其在實踐中高效執行。
- Yao等人(2018)在FL演算法中插入最大平均差異,以加強區域性模型,從其他訓練裝置中獲取更多知識,從而加快收斂速度。
- Yurochkin等人(2019年)設計了貝葉斯非引數FL框架,這是最先進的,因為它可以將區域性模型聚合為聯邦模型,而無需額外引數,從而避免不必要的通訊迴圈。實驗表明,他們只需一輪交流就能獲得令人滿意的準確率。
3.1.2 減少模型更新時間
- 最初,McMahan等人提出了兩種縮短模型更新時間的策略(2017)。一種是結構化更新,這意味著通過低秩模型或隨機遮蔽方式僅傳輸更新模型的一部分。同樣,端到端神經網路是一種結構化更新模式,它將更新資訊對映到低維空間,從而緩解通訊壓力(Li&Han,2019)。另一種是草圖更新,指的是利用壓縮的更新模型。
- Zhu和Jin(2019)優化了稀疏進化訓練(SET),因此只向伺服器傳遞了一部分引數,類似於草圖更新。
- 由於在每一輪中,每個客戶都會操縱固定的時間,Jiang和Ying(2020)為本地訓練設計了一種自適應方法。本地訓練時間由伺服器根據訓練時間和訓練損失來決定,因此當損失變小時,它將減少本地訓練時間。
上述演算法均基於隨機梯度下降(SGD),但如果函式是各向異性的,這種方法可能效率低下。
- 因此,Liu等人(2020)利用動量梯度下降來考慮每個區域性訓練時段的先前梯度資訊,以加快收斂速度。這些演算法並不完全適用於所有聯邦環境。因此,為了滿足醫療行業的高效率需求,需要探索一種更加靈活高效的通訊方式。
(2)統計學異構
傳統的機器學習隱式或顯示地假設資料分佈是獨立同分布的,然而,從各種裝置或機構收集來的資料並不服從獨立同分布(IID),不同裝置版本的傾斜特性和臨床驗證可能有所不同,並且跨多個橫向(horizontals)的資料記錄形式可能完全不同。此外,不同結點的資料大小可能存在巨大差異,導致分佈不平衡。為了解決這個問題,一般的解決方案是關注全域性模型,或者修改區域性訓練模式,或者在資料預處理階段增加一些額外的過程。
3.1.3 關注全域性模型
首先提出的FedAvg演算法通過直接對本地更新做平均來解決問題。
-
此外,Mohri等人(2019)注意到之前的工作忽略了公平的重要性,這可能會導致偏倚集中模型。他們改進了全域性模式,以應對由不同客戶組成的任何目標分銷。至於聚合階段,收斂行為是另一個需要強調的問題。異質性的存在可能導致全域性模型的錯誤收斂。
-
進一步,Wang等人(2019)討論了非IID資料背景下基於梯度下降的FL收斂界,並進一步提出了一種改進的自適應方法,以在資源預算約束下減少損失函式。
-
Li等人(2019)給出了非IID情況下FedAvg在不同引數設定或前提下的四類收斂定理。這些研究填補了FL演算法收斂速度研究的部分理論空白。此外,它還提供了引數調整對制導收斂速度的影響。
3.1.4 加入額外的資料預處理過程
-
對於資料預處理,Huang等人(2019)將聚類思想引入FL,並構建了基於社群的FL方法。通過將獨立的資料分成不同的叢集,然後在每個社群上進行聯合訓練,可以解決非IID問題。然而,一個缺點是,由於高引數轉換開銷,它不適合大規模資料訓練。
-
Gao等人(2019)在分層異構水平框架中,它將每個嵌入子流形投影到一個公共嵌入空間,以克服資料異構性。
3.1.5 修改本地訓練模式
另一個想法是優化建模方式,以實現個人裝置的個性化。
-
比如MOCHA,它引入了多工學習來利用共享表示(Smith、Chiang、Sanjabi和Talwalkar,2017)。
-
Zhao等人(2018)做了類似的工作,他們考慮了通過在每個本地模型之間共享一小組資料來處理Non-IID資料的解決方案。
-
Huang等人(2019)也從之前的資料共享思想中獲得了很多啟示,以克服Non-IID問題。他們將交叉熵損失引入傳輸過程,並在每一輪中為每個客戶機分配不同的本地更新時間。
(3)結構性異構
結構性異構主要指兩方面:
- 由於不同裝置使用不同的晶片,結點之間計算與儲存的能力不同,從而導致了不平衡的訓練時間。
- 網路環境中的客戶機不同,不可靠與不穩定網路可能導致裝置掉隊。
3.1.6 容錯性
-
聯邦多工學習是在谷歌對分散資料訓練進行研究之後構建的(Smith等人,2017年)。為了解決掉隊者(輟學或仍在使用過時的全球引數進行訓練)的問題,他們考慮了在訓練過程中參與度較低的影響,以抵抗裝置輟學。
-
為了使FL系統對被丟棄的參與者具有魯棒性,學者們還設計了安全聚合協議(Hao,Li,Luo等人,2019),只要倖存的使用者足以加入聯邦成員更新,該協議就可以容忍任意的退出。
-
Lib等人(2019年)考慮了掉隊者,並允許這些裝置實現不同的區域性更新計算時間。
-
Wu等人(2019)也充分考慮了異構網路中的裝置掉隊現象。他們利用快取結構來儲存那些不可靠的使用者更新,從而減輕了它們對全域性模型的不可信影響。
3.1.7 資源分配
由於資源的限制,前面的大部分工作都致力於為異構裝置合理分配資源。例如,Kang等人(2019年)考慮了異構客戶的管理費用,以激勵更多高質量裝置參與訓練過程。
-
Tran等人(2019)研究了異質功率約束影響下的訓練精度和收斂時間。
-
Chai等人(2019)考慮了資源(例如CPU、記憶體和網路資源)異質性對FL訓練時間的影響。
-
Li等人(2020)設計了一個公平性度量來衡量裝置損耗,並設計了一個q-Fair優化目標來推動FL的公平資源分配,散亂者和異質性貫穿FL框架。
因此,在未來,優化應該繼續有助於容錯和適當的資源分配來解決這個問題。
3.2 安全性分析
本部分詳細闡述隱私攻擊的演變與FL裡的強化。如下圖所示,第一條分支表示FL裡的非直接隱私洩露,另外兩條分支表示隱私強化的改善路線,其中一條是客戶機端的隱私保護方法,另一條是伺服器端的,這兩個分支相交於一個節點,該節點衍生出另一個分支,表示增強隱私的混合方法。連線的粗細表示文章被引頻率高低。
3.2.1 隱私風險
儘管FL中資料一直保留在本地緩解了一定的隱私擔憂,但是在梯度與部分引數的傳輸過程中可能會導致間接的隱私洩露。由於原始資料存在被反向演繹破解的風險,一些研究人員已經考慮在FL框架中檢索資料。通常的攻擊型別可分為三類。
3.2.1.1 資料投毒攻擊(Data poisoning attack)
意在嵌入一些被汙染的資料例如惡意樣本或偽裝資料,破壞資料完整性或導致訓練結果產生偏差。
主要有兩種型別的資料投毒攻擊模式:模型偏斜(model skew)、反饋武器化(feedback weaponization)。
傳統的機器學習方法容易受到資料投毒的影響,因為敵方可能直接操縱觸發器(triggers)來誤導全域性模型。然而,這些傳統的資料投毒方法在FL方面效果較差,或者可能需要許多惡意參與者,因為惡意攻擊者無法直接訪問原始資料。
- 在Bagdasaryan等人(2018)的研究基礎上,Yang等人(2019)研究了一種新穎有效的分散式後門攻擊。他們將一個攻擊觸發器分為多個部分,並將每個部分嵌入到不同的攻擊者中,而不是隻將一個完整的觸發器嵌入到一個攻擊者中。這種新型模式打破了舊觀點,即FL可以避免資料中毒。它還為外語教學中的安全性分析提供了一種新的評價形式。
3.2.1.2 模型投毒(Model poisoning,也稱作對抗攻擊(adversarial attack))
模型投毒是指通過設計特定的輸入,使機器學習模型產生錯誤的結果。
它可以細分為:非目標對抗性攻擊(Non-targeted adversarial attack)和目標對抗性攻擊(Targeted adversarial attack)。前者是一種常見型別,會導致錯誤的結果,而另一種則相對困難,目的是注入特定型別的輸入。
在FL中,實現了安全聚合,聚合器不熟悉本地更新模式,因此無法檢測異常或驗證本地更新的正確性。根據這個缺點,惡意參與者可以通過模型替換方法將後門(backdoor)插入聯邦環境,從而誤解聯合模型。這種新的攻擊方法可以成功地應用於聯邦訓練任務,包括影像分類和單詞預測。
-
類似地,Bhagoji等人(2019)通過少數惡意對手攻擊了全球模型,並將其錯誤地歸類為目標模型。這種攻擊顯然屬於有針對性的對抗性攻擊。在這種情況下,它們確保了整合模型的收斂性和大多數任務的準確性。此外,研究結果表明,拜占庭彈性聚合技術在聯邦環境下攻擊此類攻擊的能力較弱。
-
Zhang等人(2019)首次嘗試基於生成性對抗網(GAN)生成模型中毒攻擊。在這項工作中,惡意參與者假裝是一個善意的代理人。然後,他們分配一個GAN架構來生成訓練資料,並分配一個錯誤的標籤來誘使良性客戶受損。現有的旨在防禦中毒攻擊的方法在聯邦環境中非常無效。在未來的工作中,為了緩解FL的這種攻擊,伺服器端的異常檢測和分類結果的隱藏是一個有希望的方向。
3.1.1.3 推理攻擊(Inferring attack)
這類攻擊的價值主要用於檢測隱私記錄或通過白盒或黑盒恢復訓練資料。
它可以分為:追蹤攻擊(tracing attacks,也稱為成員推理攻擊(membership inference attacks))和重建攻擊(reconstruction attacks)。前者推斷資料集中是否包含客戶機,後者主張恢復個體參與者的某些特徵。
-
利用SGD的脆弱性,Nasr等人(2019)設計了一種直接針對神經網路的白盒成員推斷攻擊方法。它成功地應用於聯邦環境,通過好奇的伺服器或任何參與者推斷資訊。之前的工作主要針對惡意伺服器假設,由於客戶端更新的不可見性,無法恢復特定客戶端上的資訊。
-
Wang等人(2019)構建了一個名為mGAN AI的通用攻擊框架,該框架可以為目標客戶機重建私人資訊。為了阻止這種攻擊,應該探索更強大的保護方法,並在上傳到雲之前對資料進行加密。
3.2.2 FL中的隱私保護技術
間接隱私披露給FL的發展帶來了巨大的挑戰,潛在的威脅通常來自內部對手和外部對手。
-
內部對手:包括誠實但好奇的聚合者、勾結方和惡意參與者,在訓練過程中竊取隱私。誠實但好奇的聚合器意味著伺服器將遵守隱私協議,但會嘗試探索有關客戶端的更多資訊。串通方或惡意參與者不可靠,無法傳輸錯誤的更新,也無法從其他良性客戶那裡瞭解更多資訊。
-
外部對手:指的是那些能夠窺視中間輸出的人或有權訪問最終模型的使用者。
面對這些漏洞,現有的隱私保護方法主要集中在客戶端的資訊加密或伺服器端的安全聚合,以及FL框架的安全保護。
3.2.2.1 客戶機端的隱私保護
差分隱私(Differential privacy)經常作為增強客戶隱私保護的一種手段,當從資料庫中查詢資料時,通過引入噪聲來模糊原始資料,將減少記錄被識別的機會,同時儘可能提高查詢精度。
-
由於FedAvg容易受到差異攻擊的侵犯,Geyer等人(2018)利用FL上的差異隱私來隱藏客戶是否參與了訓練過程。
-
為了改進FedAvg,McMahan等人(2018)也通過向全域性模型中新增高斯噪聲,將DP應用於該過程。
-
在使用使用者反饋的ranker聯合線上訓練中,Kharitonov(2019)引入了ε-local差異隱私。與普通演算法相反,它更嚴格,因為它們保護使用者的隱私,而不是在資料聚合後強制使用隱私保護技術。
同態加密(Homomorphic encryption)也是FL中經常使用的一種隱私策略,用於防止客戶端之間引數交換過程中的資訊洩漏。同態加密指的是一種加密機制,即在進行加法或乘法運算之前對引數進行編碼,並執行與未編碼函式相當的結果。
-
Liu等人(2018年)採用附加同態加密來修改神經網路模型,並將對訓練精度的影響降至最低。
-
Ilias和Georgios(2019)還將同態加密新增到更健壯的FL框架中,這使得在加密的客戶端上計算聚合成為可能。由於需要傳輸更多資料,例如私鑰,因此對這些加密模型的訓練可能會增加額外的通訊開銷。
區域性敏感雜湊(Locality-sensitive hashing,LSH)也是一種普遍的保密方式。所有特徵都將通過p-stable雜湊函式對映成加密形式。這種加密模式的主要優點是,在雜湊表示之後,兩個樣本之間的相似性將被保留。然而,兩個不同的樣本幾乎不可能儲存相似的雜湊值。原始資料不會公開,因為許多樣本可能具有相同的輸出。此外,LSH不會像同態加密那樣造成過多的通訊開銷,也不會像差分隱私那樣降低準確性。
-
Lee等人(2018年)利用LSH檢測聯邦環境中的類似患者。
-
Li等人(2020)基於LSH構建了一個實用的梯度提升決策樹。在預處理階段,LSH將幫助找到分散在不同客戶機中的相似樣本,並在處理梯度更新時使用相似例項的和梯度,而不是僅使用一個例項的梯度。
3.2.2.2 安全聚合
採用安全多方計算(Secure multi-party computation,SMC),主要關注如何在沒有可靠第三方的情況下為各種客戶端安全地計算函式。
-
Bonawitz等人(2017年)提出了第一個利用安全多方計算的安全聚合協議。在該協議中,每個裝置的型號更新資訊都不會向中央伺服器公開。只有在足夠多的裝置更新其模型後,伺服器才能接收聚合模型。由於二次通訊成本,上述協議不適用於更大規模的情況。
-
Hao等人(2019)設想了一種更有效的FL隱私保護方案,該方案整合了差分隱私和輕量級同態加密技術。該協議主要針對隨機梯度下降方法,對好奇但誠實的伺服器以及雲和伺服器之間的共謀具有魯棒性。有時,雲返回的全域性模型可能不可靠或不完整。因為不可靠的雲伺服器可能會惡意返回一個完全錯誤的模型,或者由於計算壓力而懶得傳遞一個壓縮但不準確的模型。
-
Xu等人(2020)設計了VerifyNet,這是第一個可以驗證從雲返回的模型的正確性的協議。在隱私保障方面,他們結合金鑰協商協議實現了祕密共享的變體,以增強梯度的機密性。
-
Chen等人(2020)提出的最新方法也集中於安全聚合方案。它們向每個客戶端新增額外的公共引數分派,以迫使它們以相同的方式進行訓練,從而在進行聚合階段時輕鬆檢測惡意客戶端。
3.2.2.3 FL框架的保護方法
儘管上述演算法可以避免對手入侵中央伺服器或客戶端,但加密引數仍可能通過3.2.1所述的新攻擊方法導致資訊洩漏。為了增強框架的隱私性,已經提出了許多混合方法。然而,引入的差分隱私噪聲可能會導致準確性降低。
-
為了降低噪聲,混合一體(Hybrid-One)方案在不影響準確率的情況下將DP和MPC的使用結合起來,從而保護依賴MPC的通訊訊息,從而比傳統的本地DP引入更少的噪聲(Truex et al.,2019),但這種方法往往會導致無法承受的通訊成本和很長的收斂時間。
-
HybridAlpha將功能加密與SMC協議相結合,以實現高效能模型,而不犧牲隱私(Xu、Baracaldo、Zhou、Anwar和Ludwig,2019)。
-
此外,由於不儲存資料標識,並且需要額外的機制來追溯原始資料,因此草圖演算法(sketching algorithm)本質上適合FL。受此啟發,Liu等人(2019)建立了FL和草圖演算法之間的關係,以加強保密性。
4 應用
4.1 移動裝置上的應用
自谷歌首次提出預測使用者在安卓裝置上的Gboard輸入的概念以來,FL一直受到研究人員的關注。
-
通過Chen等人(2019)、Leroy等人(2019)、Hard等人(2019)和Yang等人(2018)對鍵盤預測進行了進一步改進。
-
emoji表情預測也是一個研究熱點(Ramaswamy et al.,2019)。
-
將FL模型引入智慧裝置以預測人類軌跡(Feng、Rong、Sun、Guo和Li,2020)或人類行為(Sozinov, Vlassov, & Girdzijauskas, 2018)也是一個潛在的應用。
如今,儘管移動裝置的儲存容量和計算能力在快速增長。由於通訊頻寬的限制,很難滿足移動使用者日益增長的質量需求。因此,大多數綜合提供商更願意在靠近客戶的蜂窩網路邊緣提供服務環境,而不是在核心網路中整合雲端計算和雲端儲存,以減少網路擁塞。這項技術被稱為移動邊緣計算(mobile edge computing,MEC),但它也面臨著越來越大的資訊洩漏風險。
-
一個可能的解決方案是FL和MEC的結合,Wang等人(2019)研究了一個“邊緣人工智慧”框架,該框架將基於深度強化學習的FL與MEC系統結合起來,進一步優化資源分配問題。
-
Qian等人(2019)致力於在MEC上利用FL。他們開發了一個隱私感知服務放置方案,通過在靠近使用者的邊緣伺服器上快取所需的服務來提供高質量的服務。
在這種情況下,移動裝置不僅指普通智慧手機,還包括物聯網設定中的裝置。智慧家居是物聯網的重要應用領域之一。為了更好地瞭解使用者的偏好,智慧家居架構中的裝置會將一些相關資料上傳到雲伺服器,這可能會導致資料洩露。
-
Aïvodji等人(2019)提出了一個足夠安全的聯邦架構來構建聯合模型。
-
Yu等人(2020)為智慧家居物聯網構建了一個聯邦多工學習框架,以自動學習使用者的行為模式,從而有效地檢測物理危害。
-
Liu等人(2020)提出了一種基於FL的資料融合方法,用於機器人網路中的機器人模仿學習。該方法可用於自動駕駛汽車生成引導模型並預測各種緊急情況。
4.2 工業工程上的應用
-
以環境保護為例,Hu等人(2018)設計了一種基於聯邦區域學習(FRL)的新型環境監測框架,以方便監測資料的互換。因此,分散在不同感測器上的監測資料可以用於協作模型的優異效能。
-
FL也適用於目視檢查任務(Han、Yu和Gu,2019)。它不僅可以幫助我們解決生產任務中缺少缺陷樣本來檢測缺陷的問題,還可以為製造商提供隱私保障。
-
在影像領域,視覺和語言也是一個熱點,Liu等人(2020)將FL從聯合任務中獲得多樣化的表示,以更好地為應用打下基礎。
-
除影像檢測和表示外,FL還適用於由無人機(UAV)組成的通訊系統中的惡意攻擊檢測(Mowla、Tran、Doh和Chae,2020)。由於無人機的特點,如不平衡的資料分佈和不可靠的通訊條件,與佛羅里達州的挑戰非常匹配。
-
隨著電動汽車的普及,Saputra等人(2019)為各個充電站設計了一種聯合能源需求預測方法,以防止傳輸過程中的能源擁堵。
-
此外,Yang等人(2019)利用FL對不同銀行擁有的交易進行槓桿化,以便有效地檢測信用卡欺詐,這也是對金融領域的重大貢獻。
-
對於文字挖掘,Wang等人(2020)開發了一個基於潛在Dirichlet分配的工業級聯邦框架。通過了垃圾郵件過濾和情緒分析的真實資料評估。
總之,FL使資料所有者能夠通過不同實體之間的迭代來擴大資料應用程式的範圍並提高模型效能。未來,FL技術還將支援更多行業變得更加智慧。將FL納入人工智慧將建立一個沒有資料隱私顧慮的聯邦生態系統。
4.3 醫療衛生上的應用
作為一種顛覆性的資料隱私保護方法,FL在醫療保健領域有著廣闊的前景。每個醫療機構可能都有大量患者資料,但這可能遠遠不足以訓練他們自己的預測模型(Szegedi,Kiss和Horvath,2019年)。FL和疾病預測的結合是打破不同醫院分析障礙的良好解決方案之一。
電子健康記錄(Electronic health records,EMR)包含許多有意義的臨床概念。
-
Kim等人(2017)嘗試使用張量因子分解模型進行表型分析,以獲取隱藏在健康記錄中的資訊,而無需共享患者層面的資料。這可以說是FL在醫療行業應用的第一次嘗試。
-
Pfohl等人(2019)探討了聯邦環境下EMR的差異私人學習。他們還進一步證明,這種績效與集中訓練相當。
-
Huang等人(2019年)利用分散在醫院的EMR預測心臟病患者的死亡率。在訓練過程中,醫院資料庫之間沒有任何形式的資料或引數傳輸。除此之外,從多個遠端客戶端整合到中央伺服器的資料將提前編碼,並且在訓練結束時將放棄解碼器。
-
Brisimi等人(2018年)還使用EMRs評估心臟病患者是否將根據稱為聚類原始-雙重分裂(cPDS)的FL演算法住院。這種預測工作既可以在健康監測裝置上完成,也可以在沒有資訊洩漏的情況下在持有這些醫療資料的醫院上完成。
-
利用健康記錄,Lee等人(2018)提出了一個聯合患者雜湊框架,以檢測分散在不同醫院的類似患者,而不共享患者級別的資訊。這種病人匹配方法可以幫助醫生總結一般特徵,指導他們治療經驗豐富的病人。
-
Huang等人(2019年)利用基於損失的自適應boosting聯邦平均演算法對從Mick-III資料庫中提取的藥物使用量進行預測,以預測患者死亡率。這項研究涉及計算複雜度、通訊成本以及每個客戶機的準確性,因此優於基線。
研究還表明,FL可以應用於自然語言處理(NLP)領域,以分析健康記錄中的有效資訊。
-
Liu等人(2019)關注臨床記錄的非結構化資料處理需求。這是基於FL的NLP的首次嘗試。他們進行了兩階段聯合訓練模型,包括預處理階段,用於預測每個患者的表徵模型,以及用於研究各種疾病的表型訓練階段。近年來,FL在生物醫學成像分析領域也得到了廣泛的應用。
-
Silva等人(2019)提出了聯邦主成分分析(fPCA),用於從不同醫療中心的磁共振影像(MRI)中提取特徵。
-
Gao等人(2019年)提出了一個用於腦電圖(EEG)分類的分層異構水平FL(HHFL)框架,以克服有限的標記例項以及隱私約束的挑戰。
據我們所知,隨著FL的興起和成熟,除上述領域外,它還可能在資料敏感領域具有非常廣泛的推廣和應用前景。下表顯示2019年FL的應用量大幅增長。目前,FL主要用於著陸應用的橫向協作訓練,這意味著每個資料的特徵維度彼此相似。未來,醫院的醫療資料可以與保險代理等其他機構合作,以獲得合理的定價。因此,縱向FL是一個值得探索的方向。此外,一個問題是現有的聯邦訓練大多基於小型組織,無法擴充套件到針對大量裝置或機構的協作訓練。因此,應該以有效的方式對基於FL的移動裝置資料進行分析,以生成更有意義的資訊。
5 前沿成就與未來工作
目前的主要趨勢是建立安全合規性、攻擊防禦和效率提升以及異構處理。
5.1 非同步訓練模式
關於全域性模型訓練模式的一個基本選擇是採用非同步或同步方法。最近,由於SGD在中央伺服器環境中的效能優於非同步方式(Chen,Ning等人,2019;Mohammad&Sorour,2019),同步訓練已經成為FL的主要形式。FL的事先優化主要集中在同步方式的FedAvg演化上。然而,這種方法依賴於強有力的假設,這在實踐中是不現實的。不同的計算能力、不同的網路環境和不平衡的資料分佈會導致不同的訓練時間和未知的通訊成本。
-
基於之前關於非同步梯度下降的工作,Sprague等人(2019)將非同步聚合方案與FedAvg進行了比較,獲得了基本令人滿意的結果。FL中的非同步訓練模式指的是非同步本地更新或非同步聚合。
-
在客戶端,Chen等人(2019)設計了一種用於客戶端模型更新的非同步方法。深層神經網路中的層分為深層和淺層,更新頻率不同。
-
在伺服器端,可以實現非同步聚合。例如,Chen等人(2019)、Chen等人(2019)提出的非同步線上FL框架通過引入特徵學習和動態學習步長,以非同步方式更新了中心模型。
-
考慮到同步更新和非同步訓練的優勢之間的權衡,Wu等人(2019)提出了一種半非同步協議,該協議允許分散的客戶端不總是與中央伺服器一起使用。其主要思想是利用掉隊者的緩慢更新模型,使其適當地加入訓練,以加快訓練過程。從這種半非同步方法中得到了很多啟示,非同步模式和同步方案的結合是一個很有前途的方向。通過這種方式,我們可以減少不必要的開銷,併為掉隊者提供很少的容錯能力。
5.2 梯度聚合
通常,在梯度聚合階段,全域性模型的梯度是每個客戶產生的加權梯度之和。每個客戶的權重由抽樣比例決定。然而,沒有證據表明,由於本地客戶的偏差估計,從本地客戶獲得的加權平均梯度相當於真實的全域性梯度資訊。
-
Xiao等人(2020)檢測到互資訊增加,這意味著客戶之間的相關性,而引數之間的距離隨著迭代次數的增加而增大。這項研究表明,梯度平均可能不是梯度聚集的好方法。
-
為了消除區域性訓練階段的梯度偏差,Yao等人(2019)在每個區域性訓練階段跟蹤排程的全域性引數。由於區域性梯度更新是全域性引數的函式,因此可以以無偏的方式聚合梯度。
-
為了更好地學習FL中的聚合模式,Ji等人(2019)引入了一個遞迴神經網路聚合器,以自動獲得梯度聚合的優化方法。
-
此外,Wang等人(2019)設計了一種分層聚合模式,用於在全域性模型的神經網路中連續生成層引數。
考慮到客戶端上的Non-IID分佈,以簡單平均的方式進行梯度聚合不是一個好選擇。如果研究人員能夠為每個客戶引入一些自適應權重,或者使用一些機器學習方法來學習如何有效地聚合這些梯度,那就更好了。
5.3 激勵機制
對於績效提升,除了優化資源配置或新穎的架構設計外,建立激勵機制,鼓勵更多各方參與訓練也是一種有效的方式。最初的FedAvg會隨機選擇客戶,似乎所有的客戶都同樣有可能參加訓練。事實上,一些高質量的懶惰客戶或一些擔心耗電的自私客戶可能不會以一定的概率參加整個訓練過程。可以建立激勵機制來激勵這些客戶,雲伺服器會根據每個參與者的貢獻將獎勵分配給他們,客戶會最大化他們的效用,以獲得更多的收入。基於Stackelberg的博弈論等框架在激勵機制設計中得到了廣泛的應用。
-
Sarikaya和Ercetin(2019)從Stackelberg的角度探索了創新機制,以激勵工人為本地訓練分配更多CPU。
-
Khan等人(2019)討論了基於Stackelberg的激勵機制,以自適應地設定本地迭代時間,使其儘可能有效。
-
眾包框架採用兩階段stackelberg模型來實現客戶和伺服器之間的效用最大化(Pandey、Tran、Bennis、Tun、Manzoor和Hong,2019)。
在未來的工作中,可以引入更多的框架,如匹配理論(matching theory)和拍賣理論(auction theory),以處理參與者數量和更新延遲之間的權衡。
5.4 返回模型的驗證
FL中的大多數隱私保護方法都依賴於一個強有力的假設,即客戶是半誠實的,他們遵守訓練規則但對私人資料採集保持好奇。然而,現實的應用程式中,客戶可能有意或無意地傳輸錯誤模型,迫使全域性模型偏離正常軌跡。例如,在可穿戴醫療系統中,對手可能會生成看似合理但不準確的資料來攻擊整個模型。這種拜占庭式(Byzantine)的問題在FL中經常會遇到。因此,應該開發拜占庭式的容錯系統,這意味著即使某些客戶不遵守訓練協議或惡意攻擊全域性模型,協作訓練仍然可以很好地工作。
-
為了檢測這種異常的模型更新,Li等人(2019)認為自動編碼器可以用低維向量替換模型引數,並發現不規則的權重更新。
-
Munoz-Gonzalez等人(2019)討論了通過隱馬爾可夫模型評估模型質量的自適應FL到grub異常更新。
傳統的拜占庭容錯系統由一些防禦機制支援,而不是惡意客戶端檢測。考慮到聯邦環境中的準確性損失,最好設計更多基於故障檢測的拜占庭式容錯系統,以消除或減少威脅。
5.5 帶區塊鏈技術的FL
區塊鏈本質上是一個分散式賬本,源自比特幣(Nakamoto,2008),其特點是分散性、不變性、可追溯性、集體維護、開放性和透明性。
已經提出了幾個區塊鏈輔助的工業資料共享方案,包括3D列印物品的質量監控(Kennedy等人,2017)、智慧電網的消費監控和隱私保護能源交易(Aitzhan&Svetinovic,2018)以及院前急救醫療服務(Hasavari&Song,2019)。現有的基於區塊鏈的研究主要集中於創新醫療資訊共享系統,但尚未實施協作訓練以最大限度地提高資料利用率。最近的研究證明,區塊鏈有可能顯著改變FL中的一些問題。區塊鏈和FL是相輔相成的。作為一個固有的安全分散式系統,區塊鏈自然適合使用FL開發。因為區塊鏈框架可以容忍惡意結點,只要惡意結點不超過總數的51%,就可以正常工作。
-
Majeed和Hong(2019)設想了一個強大的FL鏈,可以驗證本地模型更新。雖然區塊鏈技術可以保證整個體系結構的安全性,但這種安全性與隱私保護無關。針對單個節點沒有隱私問題。如果有惡意診所或醫院參與協作訓練,它可能會不遺餘力地監聽其他參與者的隱私資訊。
-
Ilias和Georgios(2019)利用區塊鏈智慧約定來協調所有客戶端,並另外使用同態加密來提供額外的隱私保障。
-
Awan等人(2019)設計的基於區塊鏈的隱私保護FL框架還新增了一個Paillier密碼系統的變體,作為防止隱私洩露的過度措施。此外,利用區塊鏈,可以追蹤各方對優化全球模型的貢獻,這使得激勵機制成為可能。
-
上述基於區塊鏈的FL框架並沒有為客戶提供具體的獎勵機制。為了提高FL的效能,提出了一種動態加權方法(Kim&Hong,2019)。它將學習準確性和參與頻率作為訓練權重,以激勵高質量客戶參與訓練。
-
Kim等人(2019)提出的區塊Fl獎勵持有樣本數量的客戶,以縮短收斂時間。
綜上所述,將區塊鏈與FL結合是一種幸運的做法,因為它是一種分散的技術,因此不再需要中央伺服器來預測全域性模型。因此,它可以克服FL中頻寬的限制。此外,它不僅可以在交換更新的同時驗證正確性以增強安全性,還可以使用一些啟用機制來改進FL服務。但在交換學習模型時引入區塊鏈可能會導致更多延遲,最好設計一個低延遲的基於區塊鏈的FL。
5.6 無監督學習的聯邦訓練
根據對FL研究的分析,現有的FL框架是基於有監督學習方法構建的。例如,FL在神經網路(Wang,S.et al.,2019;Hao,Li,Xu,Liu和Yang,2019;Bonawitz,Eichner,Grieskamp,Huba,Ingerman,Ivanov和Roselander,2019)和SVM(Liu et al.,2019)以及線性分類器(Hardy et al.,2017)中得到了有效利用。實際上,在大多數情況下,如果標記資料不存在,或者幾乎不存在,則應該使用無監督學習方法。
- 它已被廣泛用於影像配準(Dalca、Balakrishnan、Guttag和Sabuncu,2019;de Vos等人,2019)和影像分類(Ahn、Kumar、Feng、Fulham和Kim,2019)。
在聯邦框架下,落地應用仍然是無監督學習的瓶頸。
-
協作與對抗網路(CAN),這是一種新型的無監督領域適應方法,顯示出了有效性和高效能(Zhang,Ouyang,Li和Xu,2018)。
-
最近,van Berlo、Saeed和Ozcelebi(2020)引入了聯邦無監督表徵學習,這是無監督FL的一個突破。通過訓練前階段的無監督表徵學習,對標記資料的需求顯著降低。這項研究還顯示了與監督學習和遷移學習相比的競爭績效。
6 總結
本研究貢獻在於總結了FL在工業工程及電腦科學中的應用,並且總結了不限於應用的一些調查。