論文閱讀：Zeno: Distributed Stochastic Gradient Descent with Suspicion-based Fault-tolerance

Luuumos發表於2022-12-09

原文網址 : https://www.cnblogs.com/luuumos/p/16951297.html

AST

論文連結：http://proceedings.mlr.press/v97/xie19b/xie19b.pdf

基於懷疑容錯的分散式SGD

Abstact

zeno優勢在於只需要假設系統中存在一個正常節點。
核心思想：懷疑有潛在缺陷的worker。可能會懷疑錯誤，因此加入了使用排名的偏好機制

Introduction

使用stochastic zero-order oracle計算分數，這個分數代表在迭代中該節點的可信度。然後取分數最高（最值得信任）的節點的均值。
論文貢獻點：

系統中僅需存在一個正常節點
收斂速度與分散式同步SGD相同
適用於不相同分佈的資料集

Model

Failure Model

最壞的情況即錯誤梯度將最後的平均梯度的方向帶偏到與正確梯度完全相反的方向。

Methodology

Definition(Stochastic Descendant Score):
\(f_r(x)=\frac{1}{n_r}\sum_{n=1}^{n_r}f(x;z_i)\)
\(z_i\): i.i.d, 從完整資料集\(D\)中取樣
\(n_r\): 批訓練大小
\(Score_{\gamma, x}(u,x)=f_r(x)-f_r(x-\gamma{u})-\rho||u||^2\)
\(f_r(x)-f_r(x-\gamma{u})\)為損失函式的下降差值，下降越多且距離越近，得分越高，可信度越高。
在算出所有節點的得分後，進行從大到小的排序，然後選取得分最高的\(m-b\)個節點的梯度取平均作為中心伺服器的更新。
詳細演算法：

實驗結果

評估速度：

Zeno與Mean的收斂速度近似
Label-flipping failure:

bit-flipping failure:
控制浮點數符號的位被翻轉，錯誤的worker將負梯度而不是真實梯度推送到伺服器。

在bit-flipping failure和label-flipping falure中，當q = 8時，Mean似乎有很好的效能，而它不應該是容錯的。原因是標籤翻轉和位翻轉失敗都不會改變梯度的大小。當故障梯度的數量q小於一半時，有可能故障梯度被非故障梯度抵消。
non-i.i.d:

梯度下降演算法 Gradient Descent
2023-01-14
梯度演算法
論文閱讀：SiameseFC
2018-04-09
論文閱讀20241117
2024-11-22
GeoChat論文閱讀
2024-10-29
阿里DMR論文閱讀
2024-04-29
阿里
[論文閱讀] Hector Mapping
2020-12-16
APP
Fault-Tolerance, Fast and Slow: Exploiting Failure Asynchrony in Distributed Systems
2020-08-05
ASTAI
並行多工學習論文閱讀（五）：論文閱讀總結
2021-11-12
並行
XGBoost論文閱讀及其原理
2018-05-13
Q-REG論文閱讀
2023-10-04
MapReduce 論文閱讀筆記
2020-06-24
筆記
「DNN for YouTube Recommendations」- 論文閱讀
2020-02-19
DNN
G-FRNet論文閱讀
2020-10-11
AutoEmbedding論文閱讀筆記
2023-03-29
筆記
論文閱讀——Deformable Convolutional Networks
2020-12-25
ORM
【2020論文閱讀】11月
2020-11-27
論文閱讀狀態壓縮
2019-02-05
論文閱讀2-思維鏈
2024-03-14
CornerNet-Lite論文閱讀筆記
2020-10-31
筆記
Visual Instruction Tuning論文閱讀筆記
2024-06-07
Struct筆記
論文閱讀：《Learning by abstraction: The neural state machine》
2022-04-10
Mac
閱讀論文：《Compositional Attention Networks for Machine Reasoning》
2022-04-10
Mac
論文閱讀 Inductive Representation Learning on Temporal Graphs
2022-07-11
深度學習論文閱讀路線圖
2018-08-06
深度學習
論文閱讀-Causality Inspired Representation Learning for Domain Generalization
2024-04-09
AI
ACL2020論文閱讀筆記：BART
2020-09-26
筆記
Reading Face, Read Health論文閱讀筆記
2020-10-31
筆記
Pixel Aligned Language Models論文閱讀筆記
2024-08-01
筆記
論文閱讀 Exploring Temporal Information for Dynamic Network Embedding
2022-06-25
ORM
[論文閱讀] Residual Attention(Multi-Label Recognition)
2021-08-15
[論文閱讀筆記] Structural Deep Network Embedding
2021-06-04
筆記Struct
論文閱讀筆記：Fully Convolutional Networks for Semantic Segmentation
2019-01-20
筆記Segmentation
《learn to count everything》論文閱讀、實驗記錄
2024-05-01
閱讀論文的方法和技巧（快速且有效）
2023-05-12
論文閱讀-RankME: Reliable Human Ratings for Natural Language Generation
2020-10-09
論文閱讀：A neuralized feature engineering method for entity relation extraction
2024-07-29
Zed
論文閱讀：Sequence to sequence learning for joint extraction of entities and relations
2024-07-29
【論文閱讀筆記】Transformer——《Attention Is All You Need》
2024-11-08
筆記ORM