【一週聚焦】 聯邦學習 arxiv 2.16-3.10

木坑發表於2022-03-13

這是一個新開的每週六定期更新欄目,將本週arxiv上新出的聯邦學習等感興趣方向的文章進行總結。與之前精讀文章不同,本欄目只會簡要總結其研究內容、解決方法與效果。這篇作為欄目首發,可能不止本週內容(畢竟欠賬太多了)。

量化

  • A. T. Suresh, Z. Sun, J. H. Ro, and F. Yu, “Correlated quantization for distributed mean estimation and optimization,” arXiv:2203.04925 [cs, math], Mar. 2022, Accessed: Mar. 10, 2022. [Online]. Available: http://arxiv.org/abs/2203.04925

    這是谷歌團隊關於DME的最新研究成果。其中Suresh從2017年就深耕這一塊,算是老朋友了,而Felix X. Yu剛好是之前Federated Learning with Only Positive Labels這篇文章的作者,算是新朋友。

    這篇文章的特點在於提出了correlated quantization protocol,把量化的重點從以前的資料邊界轉移到了deviation of data points,得到了比傳統隨機量化更好的效能。雖然之前的工作就提到了當資料點有更好的集中性質時,可以獲得更好的錯誤收斂表現,但都需要需要comcentration radius,location of the mean等先驗知識,而本文則不需要這些邊資訊。

    結果表現除了更高的收斂速率,結合FL之後也有了更高的準確率。可以看到在DME上是取得了較為明顯的改善,不過對於具體應用上似乎改善較為有限。當然可能是因為MNIST過於簡單了。

    image-20220310152302612 image-20220310152321580
  • J. Wang et al., “FedLite: A Scalable Approach for Federated Learning on Resource-constrained Clients,” arXiv:2201.11865 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2201.11865

    這是CMU學生在谷歌實習時做的工作,作者列表裡同樣有Felix Yu。這篇文章之前投過會議,因為寫作太差了被拒了,現在加了收斂性分析、梯度矯正等部分,寫法上也細緻很多。文章研究的是大型模型傳輸的問題,選擇的方法是split learning,也就是每次只有一部分模型在使用者端儲存和訓練,而大部分模型都在伺服器端。為了進一步降低通訊開銷,文章用了聚類來得到梯度的質心從而進一步壓縮,最終能帶來490倍的通訊開銷下降。整個結構的關鍵點在於部分網路傳輸時如何收斂,如何選取合適的梯度進行聚類、以及後向傳播時的梯度糾正到底有何作用。總的來說,這是一篇值得細讀和復現的文章。

  • E. Agrell and B. Allen, “On the best lattice quantizers,” arXiv:2202.09605 [astro-ph, physics:gr-qc, physics:math-ph], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2202.09605

    將1996年Zamir and Feder的格量化的經典論文進行了推廣。

異構

  • S. S. Mahara, S. M., B. N. Bharath, and A. Murthy, “Multi-task Federated Edge Learning (MtFEEL) in Wireless Networks,” arXiv:2108.02517 [cs, math], Mar. 2022, Accessed: Mar. 10, 2022. [Online]. Available: http://arxiv.org/abs/2108.02517

    這是一篇IIT團隊的文章,有點三哥的特性,吹得神乎其技細看常規操作。作者研究的FL在multi-task領域,也就是每個使用者的神經網路不完全相同(原來這個已經有很多工作了),而本文新加了瑞利平坦衰落通道下的傳輸和收斂性理論分析兩個貢獻點。演算法上的創新在於將使用者的loss進行加權平均,並利用一些bound來限制住估計值和真實值的距離,從而提高估計的準確度。伺服器使用符號梯度反饋來得到personalized NN。

    看演算法似乎還是從使用者梯度的差異性(或資料分佈的相似度)來衡量相似度的,有一種聚類的感覺在裡面。

    最終在MNIST上的實驗結果表明比FedAvg和FedSGD要好,不過沒有比過sign SGD不知道是什麼鬼。

  • C. Xu, Z. Hong, M. Huang, and T. Jiang, “Acceleration of Federated Learning with Alleviated Forgetting in Local Training,” arXiv:2203.02645 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2203.02645

    這是清華的ICLR2022文章,研究瞭如何對抗聯邦學習中的異構性。作者認為現有方法較慢的原因在於本地學習會著重看到自己的資訊,從而遺忘之前學到的知識,因此在考慮所有使用者之前樣本的loss產生較大增幅。因此作者提出FedReg演算法來避免知識遺忘。具體做法時將global model學到的之前訓練資料的資料編碼成pseudo data,並且在本地訓練時對此新增正則化。實驗顯示生成的pseudo data包含了與其他使用者之前訓練資料相同的Fisher information。在MNIST上的實驗結果達到了0.978的準確率,在CIFAR10上也區的了比FedProx還要好的最佳效能,達到了0.616。可能的缺陷在於受調參的影響比較大。

    這篇文章有開源的程式碼,可以好好學習。

    image-20220311110334158
  • J. Mori, I. Teranishi, and R. Furukawa, “Continual Horizontal Federated Learning for Heterogeneous Data,” arXiv:2203.02108 [cs], Mar. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2203.02108

    日本電氣股份有限公司的文章,解決異構資料的出發點依然是解決連續訓練中的遺忘問題(continue learning,catastrophic forgetting),與清華的思路異曲同工。這篇文章和我之前的思路是一致的,在異構資料中,對共有的標籤進行聯邦學習,對自己獨有的異構資料進行本地獨立學習。之前遇到的問題是沒有找到這兩種學習的合併方式,而這篇文章給出的方法是按照列劃分,分別對應共有標籤和特徵標籤。不過在模擬部分,他沒有用常見的公開資料集,而是用的是forest covertype dataset等資料集,不太好比較效能。

    image-20220312104855100
  • S. Nikoloutsopoulos, I. Koutsopoulos, and M. K. Titsias, “Personalized Federated Learning with Exact Stochastic Gradient Descent,” arXiv:2202.09848 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2202.09848

    依舊是研究personlized federated learning的文章,來源於雅典經濟與商業大學。與上一篇日本NEC集團的文章一樣,都是考慮兩種網路結構的組合,分別代表使用者間的共有層和個性化的使用者層。看來這種來自於FedPer (Arivazhagan et al., 2019)的思路已經並不新奇,只是訓練方式稍有不同。常見的personalized FL方法有

    • fine tuning a global model
    • feature transfer:類似multi-task of feature transfer model(看來異構網路的訓練與Multi-task learning結合的思路有很多研究)

    本文提到的訓練方式是先隨機選取部分使用者來根據本地資料訓練使用者層,在最後上傳的時候,包括共有層地進行訓練並上傳梯度。

    image-20220312110928398

    不過最終的結果看來,這個方法都不一定比FedAvg的效果好。估計在這種網路架構上研究不同訓練方法的路子已經不太好走了。

    image-20220312111630486
  • F. Chen, G. Long, Z. Wu, T. Zhou, and J. Jiang, “Personalized Federated Learning With Structure,” Mar. 2022, doi: 10.48550/arXiv.2203.00829.

    同樣是考慮異構網路,另外一篇悉尼科技大學的文章重點研究的是personalized FL (PFL),並在在knowledge sharing的基礎上進一步考慮了使用者間的結構資訊。這裡的結構資訊其實就是圖神經網路裡的拓撲資訊,具體實現上還是使用者模型引數的相似度。在優化的實現上,看起來也依然是通過增加表示相關關係的正則項來實現的。

    image-20220312095658746
  • D. Makhija, X. Han, N. Ho, and J. Ghosh, “Architecture Agnostic Federated Learning for Neural Networks,” Feb. 2022, doi: 10.48550/arXiv.2202.07757.

    這是UT Austin團隊關於異構FL的解決方案,表面是打造personalised model,本質還是transfer learning 或者 knowledge distillation。作者說他考慮的是instance-level representations(又叫做proximal term),不過我理解和embedding應該大同小異。具體用的表示距離上的metric是centered kernel alignment (CKA),屬於是不知道從哪兒找出來的指標,然後加在損失函式裡面作為一個正則項。

    \[\min _{\mathcal{W}_{i}} \mathcal{L}_{i}=\mathcal{F}\left(\mathcal{W}_{i}\right)+\eta \operatorname{CKA}\left(K_{i}, \bar{K}(t-1)\right) \]

  • H. Cho, A. Mathur, and F. Kawsar, “FLAME: Federated Learning Across Multi-device Environments,” arXiv:2202.08922 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2202.08922

    這篇是CMU學生在諾基亞貝爾實驗室實習的文章,技術性不多,更像是一篇排程相關的期刊文章。文章考慮異構FL的以下三個方面

    • 以使用者為中心的不同裝置的時間排程
    • 基於準確度與效率的裝置選擇
    • 裝置的模型個性化

    或許是和業界結合的原因,提出了使用者為中心的多裝置FL其實比較有新意。裝置的異構特性又很自然地引入到了FL的異構性當中,因此在訓練中需要兼顧使用者和裝置的兩個異構性。不過文章給出的使用者異構性就是每個不同使用者序列地訓練,比較trivial。在裝置選擇上,直觀地定義了多個變數,也就是statistical utility, system utility, time utility,作為選擇的依據。在模型個性化上,也是加正則項的老套路。

    image-20220312143354356

    其中model updata部分\((v_i-w^r)\)的正則就是用於確保使用者模型的引數不會過於遠離全域性模型。另外這篇文章比較體現業界形態的就是提出了experiment testbed。最後在文章總結的personalization in FL也比較全面,值得參考。

  • E. Gasanov, A. Khaled, S. Horváth, and P. Richtárik, “FLIX: A Simple and Communication-Efficient Alternative to Local Methods in Federated Learning,” arXiv:2111.11556 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2111.11556

    這是KAUST和普林斯頓合作的文章,看到作者Richtárik就知道又有硬核的收斂性分析了。依然考慮personalized FL,本文的思路是直接修改優化目標函式,

    \[\min _{x \in \mathbb{R}^{d}} \tilde{f}(x) \stackrel{\text { def }}{=} \frac{1}{n} \sum_{i=1}^{n} f_{i}\left(\alpha_{i} x+\left(1-\alpha_{i}\right) x_{i}\right) \]

    其中\(x_i\)是每個使用者本地資料的最小值,\(\alpha_i\)是每個使用者的個性化係數。這個式子其實和正則項的形式很相近,只是把合併項拿到了自變數裡面,同時集中的點從global model換成了本地的最優值。這種其實並不算深度學習了,主要是優化,在考慮\(L_i\)-smooth函式下進行分析。而且真要跑實驗效果的話,超參\(\alpha\)感覺也需要autoML來處理。

  • O. Marfoq, G. Neglia, A. Bellet, L. Kameni, and R. Vidal, “Federated Multi-Task Learning under a Mixture of Distributions,” arXiv:2108.10252 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.10252

    之前都不知道法國在機器學習這一塊有多強,這篇法國國家資訊與自動化研究所的NeurIPS 2021文章簡直太猛了。在面對異構資料的時候,文章假設每個本地資料分佈都是\(M\)個未知的潛在分佈的混合,而這就為使用者的知識聚合找到了原因。在這個想法下,一個personlized model是\(M\)個共享的模型部分的線性組合,使用者聯合地學習這\(M\)個部分,而個性化的部分就體現在混合權重不同。這個方法將現有的personalized FL演算法甚至FedEM演算法都表示為特例,包括

    • Clustered FL
    • personalization via model interpolation
    • Federated MTL via task relationships

    作者給出了開源的程式碼,結果顯示比現有的演算法效果都強。

    image-20220312185943355

    對於之後的研究方向,作者聯絡到了利用資料分佈進行量化(這方面FedEM已經在不考慮個性化的前提下完成了)以及更好的隱私控制。

  • B. Zhao, Z. Liu, C. Chen, M. Kolar, Z. Zhang, and J. Zhou, “Adaptive Client Sampling in Federated Learning via Online Learning with Bandit Feedback,” arXiv:2112.14332 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2112.14332

    悉尼科技大學的AAAI 2022文章。同樣是針對異構使用者的misalignment問題,這篇文章的解決方法是用prototypes aggregation來代替傳統的gradient aggregation。這裡的prototype指的是the mean of multiple features,我理解的是對應的特徵。這個思路其實和Federated Learning with Only Positive Labels這篇文章很相似,都是將輸入先進行一個embedding,然後用embedding來進行分類。因此只要找到了好的embedding,那分類的難度其實不大。在訓練的時候,本地使用者在訓練本地資料的同時,保證和聚合的global prototpye的距離儘量小,避免產生較大的分歧。

    image-20220311112152238

    最終模擬結果裡比較突出的一點是其傳輸的資料量大大降低,可能是用embedding的值代替了傳輸的網路梯度帶來的好處。

    image-20220311112312155
  • G. Cheng, K. Chadha, and J. Duchi, “Federated Asymptotics: a model to compare federated learning algorithms,” arXiv:2108.07313 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.07313

    這是史丹佛Duchi團隊的文章,有很強的統計學色彩。一上來就是asymptotic risk之類的就看不懂了,做不來這種。

泛化性/收斂性

  • M. Sefidgaran, A. Gohari, G. Richard, and U. Şimşekli, “Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms,” Mar. 2022, doi: 10.48550/arXiv.2203.02474.

    這篇巴黎理工學院的文章從資訊理論的角度研究了隨機優化的泛化性。現有的泛化性分析方法包括

    • mutual information between the data sample and the algorithm output
    • compressibility of the hypothesis space
    • fractal dimension of the hypothesis space

    而這篇文章通過rate-distortion theory的角度對這三個分析角度結合成了一個數學框架,並且將“壓縮錯誤率”和泛化誤差聯絡了起來。

  • M. Fereydounian, A. Mokhtari, R. Pedarsani, and H. Hassani, “Provably Private Distributed Averaging Consensus: An Information-Theoretic Approach,” arXiv:2202.09398 [cs, math], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2202.09398

    這篇文章出自於賓大的團隊,研究了去中心化下consensus averaging中隱私和收斂性的關係。其實distributed consensus problem是一個經典的問題,而且其收斂性質已經有廣泛研究。然而,現有的交換本地資訊的想法會洩露隱私資訊,這正是本文改進的地方。文章提出演算法來設計有噪聲的資訊,從而在保證原有速率的基礎上,最小化本地值的隱私洩露。通過訊息的互資訊來量化洩漏的隱私量,最終得到了隱私與收斂時間的tradeoff。

    如果要強行做安全相關的東西,這部分可以很好的與information-theoretic perspective相結合

  • J. Liu, H. Zhao, D. Ma, K. Mei, and J. Wei, “Opening the Black Box of Deep Neural Networks in Physical Layer Communication,” arXiv:2106.01124 [cs, eess, math], Feb. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2106.01124

    國防科大發布的一篇會議短文,研究了在用autoencoder表徵物理層通訊系統並進行訓練時,資訊的流動。看起來還是模擬居多,不是很可靠,但是怎麼結合資訊理論似乎還是個令人比較好奇的地方。

  • Y. Deng, M. M. Kamani, and M. Mahdavi, “Local SGD Optimizes Overparameterized Neural Networks in Polynomial Time,” arXiv:2107.10868 [cs, math], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2107.10868

    這是一篇賓州立的AISTATS 2022的文章,分析了在ReLU啟用函式的深層神經網路下,local SGD和FedAvg能在多項式時間內收斂。相對於傳統的gradient Lipschitzness條件,文章主要考慮以下三個方面

    • semi gradient Lipschitzness
    • shrinkage of local loss
    • local model deviation analysis

    最終表明即使ReLU網路不滿足gradient Lipschitzness條件,本地梯度與全域性引數之間的差異在本地SGD的動態特性下也不回差得太大。看起來convergence theory of NN依然是一個比較活躍的方向,而且乍一看也沒有用分段線性這種無腦的思路。這篇文章沒有對網路結構的超參進行研究,感覺是挺有意思的一篇文章。

架構

  • D. J. Beutel et al., “Flower: A Friendly Federated Learning Research Framework,” arXiv:2007.14390 [cs, stat], Mar. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2007.14390

    這是劍橋大學等歐洲高校主導開發的FL架構,其實2020年7月就釋出了,到現在斷斷續續已經是第五版,不知道這次放上來到底是有改動還是刷存在感。提出架構的原因還是在於從科研環境的模擬遷移到實際應用當中,而Flower主打的特色在於大規模的使用者數量(15M)

    image-20220312150546734

    圖片裡x軸是總的使用者數量,y軸是併發的使用者數量,可以看到Flower明顯得超過其他架構。同時架構中內建了諸多常用演算法,雖然沒有實現的必要,但是對於聯邦學習而言,知道這些經典演算法肯定是很有必要的。

    image-20220312150719448

    我覺得這篇文章主要用的技術就是Virtual Client Engine (VCE),能夠將inactive的使用者的資源減少接近到零,從而提升可支援的使用者數量。

    image-20220312151301972

    另外還有若干架構,如果之後要做這方面落地的工作可以再看看,否則目前用處不大,還是先好好看程式碼吧。

重點文章推薦

  • J. Wang et al., “FedLite: A Scalable Approach for Federated Learning on Resource-constrained Clients,” arXiv:2201.11865 [cs], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2201.11865
    研究部分網路如何收斂,以及程式碼復現
  • C. Xu, Z. Hong, M. Huang, and T. Jiang, “Acceleration of Federated Learning with Alleviated Forgetting in Local Training,” arXiv:2203.02645 [cs], Mar. 2022, Accessed: Mar. 11, 2022. [Online]. Available: http://arxiv.org/abs/2203.02645.
    學習程式碼
  • O. Marfoq, G. Neglia, A. Bellet, L. Kameni, and R. Vidal, “Federated Multi-Task Learning under a Mixture of Distributions,” arXiv:2108.10252 [cs, math, stat], Feb. 2022, Accessed: Mar. 12, 2022. [Online]. Available: http://arxiv.org/abs/2108.10252
    資料分佈與訓練效果的關係
  • M. Sefidgaran, A. Gohari, G. Richard, and U. Şimşekli, “Rate-Distortion Theoretic Generalization Bounds for Stochastic Learning Algorithms,” Mar. 2022, doi: 10.48550/arXiv.2203.02474.
    網路泛化性與資訊理論的統一框架

相關文章