【一週聚焦】聯邦學習 arxiv 3.11-3.18

木坑發表於2022-03-19

原文網址 : https://www.cnblogs.com/mhlan/p/16028353.html

異構

O. Marfoq, G. Neglia, L. Kameni, and R. Vidal, “Personalized Federated Learning through Local Memorization,” arXiv:2111.09360 [cs, stat], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2111.09360

這篇蔚藍海岸大學埃森哲技術研究院的文章同樣在研究PFL，而且大有頂會論文的趨勢。該團隊對於PFL的理解為在對每個使用者訓練得到單獨模型的同時，還要利用其他使用者的知識。因此，這篇文章的思路依然是對相似使用者進行聚類。那麼聚類標準是什麼呢？每個使用者對輸入的表示（embedding）。之前我一直覺得embedding的訓練比較難，其實就是每個使用者分類層的前一層的輸出。比如CNN的最優一個卷積層，RNN的最後一個隱藏狀態。這樣聚類沒有觸及到最優的分類，因此避免了隱私的洩露，但是又利用了使用者對資料進行表徵的網路，還是比較巧妙。

然後根據聚類結果對他們的網路進行融合，在兩個使用者聚類的時候，依然是典型的需要調參的融合方式

\[h_{m, \lambda_{m}}(\mathbf{x}) \triangleq \lambda_{m} \cdot h_{\mathcal{S}_{m}}^{(k)}(\mathbf{x})+\left(1-\lambda_{m}\right) \cdot h_{\mathcal{S}}(\mathbf{x}) \]

這也是體現了標題local memorization的作用，就是利用了鄰居的記憶。今天谷歌有一篇文章，也是將多個微調的模型直接進行聚合，在ImageNet1K上取得了90%的準確率，可謂是異曲同工。同時這篇文章也分析了generalization bound。最終的實驗結果看起來也不錯

可以看到，對於每個使用者兩個class的CIFAR10而言，準確率已經達到了93，更不要說MNIST了。不過Shakespeare資料集的提升還是並不明顯，可能這種PFL的思路還是對物件識別更加有效。

C. Hou, K. K. Thekumparampil, G. Fanti, and S. Oh, “FedChain: Chained Algorithms for Near-Optimal Communication Cost in Federated Learning,” arXiv:2108.06869 [cs, math], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2108.06869

這是CMU發表在ICLR 2022上的文章，以收斂性分析為主。對於FedAvg遭遇的異構資料瓶頸，這篇文章沒有迎難而上研究PFL，而是選擇直接逃避。既然FL對iid的資料效果好，那就只對iid做就好了呀，對於non iid的資料，直接回到原來的SGD，不就等效於全域性的訓練，那異構資料的問題也就迎刃而解了。

當然作者不會直接這麼說，故事還是要好好講的。作者的意思是FedAvg演算法的本地訓練階段能夠利用使用者資料的相似性加速訓練，而SGD演算法能夠在異構資料下得到更低錯誤概率。文章中的圖比較形象，確實是離最優點遠的時候，雖然梯度有差別但是方向基本一致，到訓練後期才體現出每個client的差別，從而需要頻繁使用global training

對於使用者異構性而言，為了理論分析方便的定義被說成了standard measure，其實不太客觀

\[\zeta^{2}:=\max _{i \in[N]} \sup _{x}\left\|\nabla F(x)-\nabla F_{i}(x)\right\|^{2} \]

按照這個思路，文章提出的FedChain就是先進行若干輪FedAvg演算法，然後進行SGD演算法，

這篇文章在理論分析方面做了很多工作（堆料）。在模擬方面，實驗表示僅僅訓練一輪FedAvg都能有明顯的提高，表明確實是有效果的

量化

C. Tang et al., “Mixed-Precision Neural Network Quantization via Learned Layer-wise Importance,” arXiv:2203.08368 [cs], Mar. 2022, Accessed: Mar. 19, 2022. [Online]. Available: http://arxiv.org/abs/2203.08368

這篇來自於清華大學的神經網路混合精度量化的文章，初看讓人眼前一亮，細看還是故事講得比做的好。文章首先講明瞭混合精度量化的重要性，現有演算法的難點，他們觀察到一個可訓練的變數能夠表徵每一層對於量化的敏感程度或者說重要性，然後由此得到一個整數規劃來分配每一層的量化位元數量。

這個量化的思路有點霍夫曼編碼在神經網路中的應用。霍夫曼編碼根據碼字出現的概率來分配碼長，這篇文章則根據每一層的重要性來選擇碼長。那麼文章的核心當然就是如何衡量重要性了。經濟學中常用的shapley value大家也早就想過了，但這個畢竟是個組合問題，搜尋空間大耗時長，就算用DRL也不好搞。那能不能用一次端到端的學習，學到一些引數，剛好就和重要性對應上，相當於找一個shapley value的平替呢？之前大家也不是沒想過，BN層的scale factor就可以反映資料輸入的聚集程度，大家也這麼做了。但是BN層的對映變換是在前一層量化操作後，也就是說不能直觀反映量化帶來的的變化。所以這篇文章提出用每一層的scaling factor來表徵重要性，也就是下面的\(s\)

\[v^{q}=Q_{b}(v ; s)=\operatorname{round}\left(\operatorname{clip}\left(\frac{v}{s}, \min _{b}, \max _{b}\right)\right) \times s \]

具體的好處直接放原文，總之\(s\)在quantization-aware training中就能得到優化，能夠有效反映quantization的性質。

As shown in Equation 1, during QAT, the scale factor of the quantizer in each layer is trained to adjust the corresponding quantization mapping properly at a specific bit-width. This means that it can naturally capture certain quantization characteristics to describe the layers due to its controlled quantization mapping being optimized directly by the task loss. Therefore, there should be numerically significant difference in the scale factors for heterogeneous layers in a network.

Moreover, the operation involved in the scale factor takes place in the quantizer, which allows it to be directly aware of quantization.

Last but not least, there are two quantizers for activations and weights for a layer, respectively, which means that we can obtain the importance of weights and activations separately. In contrast, we cannot get the importance of weights through the BN layer since it only acts on activations.

之後作者實驗驗證了這個想法。（這裡沒看懂是大的scale factor需要更多位數還是小的需要更多位數，從下面的優化問題來看是小的factor需要更多位數，也就是基本不縮放的重要性高，所以分配更多位數，和圖裡的又對不上）

最終得到了整數規劃，用來求解每層需要分配的量化數量。

【一週聚焦】聯邦學習 arxiv 2.16-3.10
2022-03-13
聯邦學習
聯邦學習：多工思想與聚類聯邦學習
2022-03-15
聯邦學習聚類
聯邦學習 2020-3-15
2020-03-15
聯邦學習
多工學習分散式化及聯邦學習
2022-03-01
分散式聯邦學習
《聯邦學習》——個人筆記（二）
2020-10-22
聯邦學習筆記
聯邦學習綜述性論文
2024-08-08
聯邦學習
一圖看懂騰訊安全聯邦學習應用服務
2020-04-15
聯邦學習
聯邦學習城市應用實戰指南
2023-01-29
聯邦學習
聯邦學習開源框架FATE架構
2023-03-16
聯邦學習框架架構
一文透析騰訊安全聯邦學習應用服務
2020-04-02
聯邦學習
分散式機器學習、聯邦學習、多智慧體的區別和聯絡
2021-12-11
分散式機器學習聯邦學習智慧體
聯邦學習中的優化演算法
2022-03-04
聯邦學習優化演算法
學習週報（第一週）
2020-11-21
當傳統聯邦學習面臨異構性挑戰，不妨嘗試這些個性化聯邦學習演算法
2020-09-23
聯邦學習演算法
聯邦學習新時代即將到來？標準化聯邦互動協議FLEX開源！
2020-12-24
聯邦學習協議Flex
騰訊安全聯邦學習應用服務白皮書
2020-04-18
聯邦學習
MindSpore聯邦學習框架解決行業級難題
2021-12-24
聯邦學習框架行業
聯邦學習：深度學習之後，AI 安防的第二落腳點
2019-11-25
聯邦學習深度學習AI
聯邦學習中的差分隱私與同態加密
2024-04-10
聯邦學習加密
聯邦學習為公平性研究提供了幾個思考
2020-03-15
聯邦學習
Python學習第一週學習總結
2021-09-09
Python
ICLR 2024 | 聯邦學習後門攻擊的模型關鍵層
2024-04-07
ICLR聯邦學習模型
模型攻擊：魯棒性聯邦學習研究的最新進展
2020-06-03
模型聯邦學習
聯邦學習：按混合分佈劃分Non-IID樣本
2022-03-10
聯邦學習
聯邦學習：按Dirichlet分佈劃分Non-IID樣本
2022-02-15
聯邦學習
如何解決聯邦學習中的通訊開銷問題？
2021-01-18
聯邦學習
第一週學習報告
2024-07-07
強化學習、聯邦學習、圖神經網路，飛槳全新工具元件詳解
2019-12-05
強化學習聯邦學習神經網路元件
破解聯邦學習中的辛普森悖論，浙大提出反事實學習新框架FedCFA
2025-01-13
聯邦學習框架
聯邦學習將帶來全新的資料合作生態系統
2020-02-12
聯邦學習
聯邦學習（電子工業出版社）——讀書筆記（3）
2020-10-28
聯邦學習筆記
《聯邦學習FATE入門與應用實戰》公開課上線！
2020-03-03
聯邦學習
聯邦學習開源框架FATE新版本釋出！配套引擎EggRoll更新
2020-06-03
聯邦學習框架
資料不出本地，還能享受大資料訓練模型，聯邦學習提供一種應用廣闊的學習新正規化
2019-09-12
大資料模型聯邦學習
機器學習一週心得分享
2018-06-07
機器學習
AI落地遭“卡脖子”困境：為什麼說聯邦學習是解決良方？
2019-09-29
AI聯邦學習
英聯邦祕書處：英聯邦數字經濟報告
2020-03-17
城市免疫力與“AI營養液”：聯邦學習的價值與場景
2020-03-01
AI聯邦學習

【一週聚焦】 聯邦學習 arxiv 3.11-3.18

異構

量化

相關文章

【一週聚焦】聯邦學習 arxiv 3.11-3.18