Zookeeper 的選舉機制也不過如此！

Java程式設計大本營發表於2021-03-26

原文網址 : https://learnku.com/articles/55660

Zookeeper 是一個分散式服務框架，主要是用來解決分散式應用中遇到的一些資料管理問題如：統一命名服務、狀態同步服務、叢集管理、分散式應用配置項的管理等。

我們可以簡單把 Zookeeper 理解為分散式家庭的大管家，那麼管家團隊是如何選出Leader的呢？好奇嗎，接下來帶領大家一探究竟。

人類選舉的基本原理

講解 Zookeeper 選舉過程前先來介紹一下人類的選舉。
我們每個人或多或少都經歷過幾次選舉，在投票的過程中可能會遇到這樣幾種情況：

情況1：自己和候選人熟，將票投給你認為能力強的那個人；

情況2：自己也是候選人，會想著拉票，但是發現別人能力比你強，就將自己的票投給別的候選人。

所有人投票完後，統計投票箱中票數最多的候選人，當選領導。

在整個投票過程中我們可以提煉出四個最核心的概念：

候選人能力: 投票的基本原則是選最強的人。

遇強改投: 如果後面發現更強的人可以改投票。

投票箱: 所有人的票都會放在投票箱。

領導者: 得票最多的人即為領導者。

從人類選舉的原理我們來簡單推導一下Zookeeper的選舉原理。

Zookeeper選舉的基本原理

如果zookeeper是單機部署，不是叢集模式，那麼不存在選舉的問題。

zookeeper 的選舉和人類選舉基本一樣，借用上面說的4個核心概念，來說說選舉的基本原理。

候選人能力

zookeeper 通過 sid 和zxid (事物ID) 來證明自己的能力強弱。

zxid 的全稱是 ZooKeeper Transaction Id，即 Zookeeper 事務id。資料的最新版本號，資料越大說明能力越強。

sid , 我們自定義的伺服器編號ID，值越大證明能力越大。

遇強改投

在選舉的時候，每臺zookeeper 節點都會認為自己是最強的，會先投票給自己（選票上包含sid、zxid）。

然後將選票傳遞給叢集中的每個節點，同時自己也會接收其他節點發過的選票。節點接收到選票後，會判斷選票上節點的能力強弱，如果發現比自己強，那麼就進行改票，把自己的選票投給能力強的。然後在傳遞給叢集中的每個節點。

投票箱

與人類選舉不同，zookeeper 叢集中，每個節點都會維護一份投票箱。因為每個節點的選票都會同步給每個叢集中的節點，所以投票箱的結果都是一致的。

領導者

投票的過程中，只要發現票數有超過一半的節點，領導就選擇成功，投票也就宣告結束。

什麼場景下 Zookeeper 需要選舉？

當zookeeper 叢集中有一臺機器發生以下場景，就會進行選舉。

機器啟動
機器執行期間leader當機

機器啟動選舉

假設5臺zookeeper依次啟動，sid的編號依次為1-5。

伺服器1

先投自己1票，投票箱票數不過半，選舉無法完成。此時伺服器-1的狀態為looking
伺服器2

先投自己1票，將自己的選票結果同步給伺服器1。伺服器1 發現伺服器2的sid編號比自己大，於是進行改票，把自己的選票投給了伺服器2，並同步給伺服器2。

此時雙方的投票箱結果為：

伺服器1，獲0票；

伺服器2，獲2票；

並沒有超過票數過半的機器。選舉依然無法完成，此時伺服器2的狀態仍為looking

伺服器3

先投自己1票，將自己的選票結果同步給伺服器1、伺服器2。伺服器1和伺服器2 ，發現伺服器3的sid編號比自己還大，所以趕緊進行改票，都投給了伺服器3。

此時投票箱的結果為：

伺服器1，獲0票；
伺服器2，獲2票；
伺服器3，獲3票；

發現有票數過半的機器，於是伺服器3，當仁不讓成了leader。此時更改伺服器1、2的狀態為 following，伺服器3為leading

伺服器4

先投自己1票，同步自己選票時，發現伺服器1、2、3 已經不是looking狀態了，於是取得投票箱結果，將自己的選票改投給伺服器3，自己的狀態更改為following

服務5

同伺服器4 一致。

最終的結果是：伺服器3是leader，其他全是follow。

機器執行期間leader當機選舉

zookeeper執行期間，當leader 當機，整體會對外暫停服務提供，觸發新的一輪選舉。觸發新選舉的時候，每臺txid可能都不一樣的。還是以剛才上面的案例進行分析，假設伺服器3 leader 當機，txid為分別為，伺服器1（99），伺服器2（102），伺服器4（100），伺服器5（101）。

投票的過程和初始化的基本類似，主要為以下幾個步驟：

1）狀態變更，除Obsever狀態的其他伺服器全部變更為looking，然後進行leader的選舉過程

2）每個伺服器先投自己一票，然後同步選票

3）每個伺服器都會收到各個伺服器的投票，如果發現有txid比自己大的，會進行改票

4）處理和統計投票，每一輪投票結束後都會統計投票，超過半數即可當選。

5）改變伺服器的狀態，宣佈當選

直接看圖：

很顯然，最後伺服器2 被當選為新的leader。

選舉機制中涉及到的核心概念

sid（伺服器ID、serverId）

伺服器編號，編號越大，在選舉leader時權重越大。

zxid (事物ID)

資料的版本號，數值越大資料越新，在選舉leader演算法中，越大權重越大咯

Epoch（邏輯時鐘）

也叫投票的次數，同一輪投票過程中的邏輯時鐘值是相同的，每投完一次票這個資料就會增加。

Server狀態（選舉狀態）

looking： 競選狀態。

following： 隨從狀態，同步leader狀態，參與投票。

observing: 觀察狀態,同步leader狀態，不參與投票。

leading: 領導者狀態。

總結

（1）Zookeeper 選舉會發生在伺服器初始狀態和執行狀態下。

（2）初始狀態下會根據伺服器sid的編號對比，編號越大權值越大，投票過半數即可選出Leader。

（3）Leader 故障會觸發新一輪選舉，zxid 代表資料越新，權值也就越大。

（4）在執行期選舉還可能會遇到腦裂的情況，大家可以自行學習。

來源：4m.cn/zmR0u

本作品採用《CC 協議》，轉載必須註明作者和本文連結

面試官：說一說Zookeeper中Leader選舉機制
2022-04-07
面試
Zookeeper的選舉機制和同步機制超詳細講解，面試經常問到！
2021-10-08
面試
分散式協調元件Zookeeper之選舉機制與ZAB協議
2021-09-02
分散式元件協議
ZooKeeper 工作、選舉原理
2019-03-26
深入解析kubernetes中的選舉機制
2022-06-28
Zookeeper原始碼（啟動+選舉）
2020-11-07
原始碼
zookeeper（四）領導者選舉
2020-10-23
zookeeper的原理和使用（二）-leader選舉
2018-12-12
Zookeeper分散式過程協同技術 - 群首選舉
2020-06-27
分散式
Zookeeper原始碼分析-Zookeeper Leader選舉演算法
2018-09-09
原始碼演算法
ZooKeeper Watcher機制
2018-05-25
zookeeper原始碼(04)leader選舉流程
2023-11-07
原始碼
深入淺出Zookeeper（七）：Leader選舉
2020-06-15
Zookeeper watch機制原理
2020-10-30
Zookeeper--Watch機制
2020-12-07
Zookeeper(4)---ZK叢集部署和選舉
2020-11-11
MongoDB的選舉過程
2018-12-27
MongoDB
超細！細說Zookeeper選舉的一個案例（下）
2021-12-20
超細！細說Zookeeper選舉的一個案例（上）
2021-12-17
zk選舉過程
2018-03-20
[BJDCTF2020]ZJCTF，不過如此 1
2024-11-24
TF2
Zookeeper watcher 事件機制原理剖析
2021-09-09
事件
【Java面試】Zookeeper中的Watch機制的原理？
2022-05-19
Java面試
Apache ZooKeeper - 事件監聽機制初探
2020-11-17
Apache事件
C# Redis 過期機制不生效問題
2018-09-18
C#Redis
當機噩夢，CTO也躲不過凌晨改程式碼
2020-11-12
面試題：說說你對ZooKeeper叢集與Leader選舉的理解？
2019-04-09
面試題
Vue2.0 多種元件傳值方法-不過如此的 Vuex
2021-02-15
Vue元件
ZooKeeper-3.4.6叢集選舉Bug踩坑與恢復記錄
2024-02-08
從原始碼級別深挖Zookeeper監聽機制
2020-12-03
原始碼
小白也能看懂的ArrayList的擴容機制
2020-10-05
zookeeper的新選擇--CxxZookeeper
2018-03-08
得物 ZooKeeper SLA 也可以 99.99%
2024-05-11
Zookeeper的基本命令詳解和ACL和watch監聽機制
2020-11-21
什麼是Zookeeper?（動態的服務註冊和發現、Master選舉、分散式鎖）
2019-09-08
AST分散式
好程式設計師大資料技術分享：Zookeeper叢集管理與選舉
2019-03-28
程式設計師大資料
好程式設計師大資料技術分享Zookeeper叢集管理與選舉
2019-05-29
程式設計師大資料
如此心胸狹隘，不用此blocg也罷
2023-11-04
BloC