分散式系統選舉演算法剖析

哥不是小蘿莉發表於2017-07-16

1.概述

　　我們在瞭解分散式選舉演算法之前，我們需要這樣一種演算法產生的背景。在一個分散式系統中，因為各種意外的因素，有的伺服器可能會崩潰或變得不可靠，它就不能和其他伺服器達成一致狀態。因而這樣就需要一種Consensus協議，來確保伺服器的容錯性，也就是說即使系統中有一兩個伺服器節點Crash，也不會影響其處理過程。為了讓容錯方式達成一致，我們不可能要求所有的伺服器節點100%都達成Consensus狀態，只要超過半數的大多數伺服器節點Consensus即可，假設有N臺伺服器節點，(N/2)+1 就超過半數，即可代表大多數了。那麼，今天筆者給大家分享的就是Raft分散式選舉演算法。

2.內容

　　Raft為了實現Consensus這個目標，這個過程如果選舉一樣，參選者需要說服大多數伺服器節點投票給他，一旦選定後就跟隨其操作。在Raft中，任何時候一個伺服器節點可以扮演下面角色之一：

Leader：處理所有客戶端互動，日誌複製等操作，一般一次只有一個Leader。
Follower：類似選民，處於被動狀態。
Candidate：類似Proposer，可以被選為一個新的Leader。

　　Raft階段分為兩個，首先是選舉過程，然後在選舉出來的Leader帶領下進行相關正常的操作，比如複製等。下面有相關示意圖來展示該過程：

2.1 選舉請求

　　任何一個伺服器節點都可以成為一個Candidate，它向其他伺服器節點Follower發出要求選舉自己的請求，如下圖所示：

2.2 應答

　　其他伺服器應答同意，發出OK。如下圖所示：

　　需要注意的是，如果在這個過程當中，有一個FollowerCrash掉，沒有收到請求選舉的要求，因此候選者可以自己選舉自己，只要達到 (N/2)+1 的大多數票，候選人還是可以成為Leader的。

2.3 傳送指令

　　在候選者成為Leader後，它可以向其他Follower節點傳送指令，比如進行日誌複製，如下圖所示：

2.4 Heartbeats

　　之後，通過心跳進行日誌複製等通知，如下所示：

2.5 Crash

　　在執行的過程當中，一旦該叢集的Leader當場Crash了，那麼Follower中有一個成為候選者，發出投票選舉邀請，如下圖所示：

2.6 New Leader

　　在Follower同意後，其成為Leader，繼續承擔日誌複製等操作動作，如下圖所示：

　　這裡需要注意的是，在整個選舉過程當中是有一個時間限制的，如下圖所示：

　　出現在Split Note的情況，是因為如果同時有兩個候選人向其他節點發出投票邀請，這時通過類似的加時賽來解決，兩個候選者在一段Timeout，比如100ms互相不服氣的等待後，因為雙方得到的票數是一樣的，一半對一半，那麼在100ms後，再由這兩個候選者發出投票邀請，這時同時的概率大大降低，那麼首先發出邀請投票的候選者得到大多數同意票後，成為Leader，而另外的一個候選者後來發出投票邀請，那些Follower選民已經投票給了第一個候選者，此時不能再投票給它，它就成為落選者了，最後這個落選者也就成為一名普通的Follower了。

3.日誌複製案例

　　下面通過以日誌複製為例子來說明Raft分散式選舉演算法，假設這裡Leader已經選出，這時候客戶端發出一個新增的請求，比如日誌內容是"smartloli"，如下所圖所示：

3.1 Append

　　在Leader傳送的指令下，Follower需要遵循它的指令，都將這個新的日誌內容追加到他們各自的日誌中：

3.2 Commit

　　大多數Follower伺服器節點日誌寫入磁碟檔案後，確認追加成功，發出Commited OK，如下圖所示：

　　再下一個心跳Heartbeats中，Leader會通知所有的Follower更新Commited。對於每個新的日誌記錄，重複上述操作過程。如果在這個過程當中，發生了網路通訊故障，使得Leader不能訪問大多數Followers了，那麼Leader只能正常更新它能訪問的那些Follower伺服器節點，而大多數的伺服器Follower因為沒有了Leader，他們重新選擇一個候選者作為Leader，然後這個新的Leader作為代表與外界進行互動，如果外界傳送新的請求操作，比如新增新的日誌，這個新的Leader就按照上述步驟通知大多數Followers伺服器節點，如果這時網路故障修復了，那麼原先的Leader就要降級成為Follower，在失聯階段這個老Leader的任何更新都不能算Commit，都要Roll Back，接受新的Leader的新的更新操作。

4.總結

　　目前，幾乎所有的語言都已經支援Raft分散式選舉演算法的庫了。這裡我們通過對分散式選舉演算法的學習與分析，可以對分散式系統底層選舉機制有更好的理解。大家可以去閱讀一下Raft演算法作者寫的論文。另外，Raft的作者有將論文進行整理成了大綱，閱讀地址：《Raft論文大綱》

5.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉。

分散式系統中的領導選舉
2022-03-11
分散式
演算法領頭羊丨分散式系統如何選舉領導？
2022-04-09
演算法分散式
分散式系統理論基礎 - 選舉、多數派和租約
2016-08-21
分散式
【分散式】Zookeeper的Leader選舉
2016-12-06
分散式
Cloudflare分散式系統中的拜占庭式失敗與Raft選舉問題 - cloudflare
2020-11-29
Cloud分散式Raft
分散式系統Paxos演算法
2017-11-15
分散式演算法
分散式系統理論基礎5：選舉、多數派和租約
2019-11-18
分散式
分散式系統的Raft演算法
2018-11-19
分散式Raft演算法
分散式系統原理---CBCAST演算法
2020-11-26
分散式AST演算法
分散式系統
2024-07-05
分散式
分散式系統之Raft共識演算法
2019-07-15
分散式Raft演算法
分散式系統2：分散式系統中的時鐘
2024-10-13
分散式
分散式系統：系統模型
2024-03-12
分散式模型
Kafka控制器選舉流程剖析
2018-10-21
Kafka
分散式 - 分散式系統的特點
2019-05-16
分散式
分散式系統（三）——分散式事務
2022-01-01
分散式
分散式系統限流演算法分析與實現
2021-01-25
分散式演算法
Memcached 編譯安裝部署、LRU 演算法、分散式演算法剖析
2019-06-19
編譯演算法分散式
分散式系統選主場景分析及實現
2020-09-09
分散式
[分散式]分散式計算系統淺析
2019-03-20
分散式
redisson分散式鎖原理剖析
2022-11-22
Redis分散式
Zookeeper分散式過程協同技術 - 群首選舉
2020-06-27
分散式
29_分散式文件系統_深度圖解剖析document資料路由原理
2024-10-01
分散式圖解路由
深入剖析分散式一致性共識演算法
2021-02-17
分散式演算法
分散式系統的跟蹤系統
2018-05-06
分散式
分散式圖片系統
2020-02-25
分散式
分散式系統（二）——GFS
2021-12-28
分散式
分散式系統基礎
2018-09-04
分散式
分散式檔案系統
2018-09-05
分散式
冰激凌和分散式系統
2014-10-27
分散式
關於分散式系統
2005-09-21
分散式
深度剖析分散式事務效能
2021-10-11
分散式
大型分散式系統現場，阿里大牛帶你實戰分散式系統
2019-04-30
分散式阿里
幽默！分散式系統共識演算法的三階段
2018-08-13
分散式演算法
分散式系統的共識(consensus)演算法比較
2016-03-10
分散式演算法
分散式：分散式系統下的唯一序列
2022-01-24
分散式
開源分散式任務排程系統就選：DolphinScheduler
2023-02-28
分散式
什麼是分散式系統！以及分散式系統架構的優缺點！
2019-06-11
分散式架構