ZooKeeper 工作、選舉原理

擊水三千里發表於2019-03-26

原文網址 : https://blog.csdn.net/lzhcoder/article/details/88675292

ZooKeeper是一個分散式的，開放原始碼的分散式應用程式協調服務，它包含一個簡單的原語集，分散式應用程式可以基於它實現同步服務，配置維護和命名服務等。Zookeeper是hadoop的一個子專案，其發展歷程無需贅述。在分散式應用中，由於工程師不能很好地使用鎖機制，以及基於訊息的協調機制不適合在某些應用中使用，因此需要有一種可靠的、可擴充套件的、分散式的、可配置的協調機制來統一系統的狀態。Zookeeper的目的就在於此。本文簡單分析zookeeper的工作原理，對於如何使用zookeeper不是本文討論的重點。

1 Zookeeper的基本概念

1.1 角色

Zookeeper中的角色主要有以下三類，如下表所示：

系統模型如圖所示：

1.2 設計目的

1.最終一致性：client不論連線到哪個Server，展示給它都是同一個檢視，這是zookeeper最重要的效能。

2 .可靠性：具有簡單、健壯、良好的效能，如果訊息m被到一臺伺服器接受，那麼它將被所有的伺服器接受。

3 .實時性：Zookeeper保證客戶端將在一個時間間隔範圍內獲得伺服器的更新資訊，或者伺服器失效的資訊。但由於網路延時等原因，Zookeeper不能保證兩個客戶端能同時得到剛更新的資料，如果需要最新資料，應該在讀資料之前呼叫sync()介面。

4 .等待無關（wait-free）：慢的或者失效的client不得干預快速的client的請求，使得每個client都能有效的等待。

5.原子性：更新只能成功或者失敗，沒有中間狀態。

6 .順序性：包括全域性有序和偏序兩種：全域性有序是指如果在一臺伺服器上訊息a在訊息b前釋出，則在所有Server上訊息a都將在訊息b前被髮布；偏序是指如果一個訊息b在訊息a後被同一個傳送者釋出，a必將排在b前面。

2 ZooKeeper的工作原理

Zookeeper的核心是原子廣播，這個機制保證了各個Server之間的同步。實現這個機制的協議叫做Zab協議。Zab協議有兩種模式，它們分別是恢復模式（選主）和廣播模式（同步）。當服務啟動或者在領導者崩潰後，Zab就進入了恢復模式，當領導者被選舉出來，且大多數Server完成了和leader的狀態同步以後，恢復模式就結束了。狀態同步保證了leader和Server具有相同的系統狀態。

為了保證事務的順序一致性，zookeeper採用了遞增的事務id號（zxid）來標識事務。所有的提議（proposal）都在被提出的時候加上了zxid。實現中zxid是一個64位的數字，它高32位是epoch用來標識leader關係是否改變，每次一個leader被選出來，它都會有一個新的epoch，標識當前屬於那個leader的統治時期。低32位用於遞增計數。

每個Server在工作過程中有三種狀態：

LOOKING：當前Server不知道leader是誰，正在搜尋
LEADING：當前Server即為選舉出來的leader
FOLLOWING：leader已經選舉出來，當前Server與之同步

2.1 選主流程

當leader崩潰或者leader失去大多數的follower，這時候zk進入恢復模式，恢復模式需要重新選舉出一個新的leader，讓所有的Server都恢復到一個正確的狀態。Zk的選舉演算法有兩種：一種是基於basic paxos實現的，另外一種是基於fast paxos演算法實現的。系統預設的選舉演算法為fast paxos。先介紹basic paxos流程：

1 .選舉執行緒由當前Server發起選舉的執行緒擔任，其主要功能是對投票結果進行統計，並選出推薦的Server；
2 .選舉執行緒首先向所有Server發起一次詢問(包括自己)；
3 .選舉執行緒收到回覆後，驗證是否是自己發起的詢問(驗證zxid是否一致)，然後獲取對方的id(myid)，並儲存到當前詢問物件列表中，最後獲取對方提議的leader相關資訊(id,zxid)，並將這些資訊儲存到當次選舉的投票記錄表中；
4. 收到所有Server回覆以後，就計算出zxid最大的那個Server，並將這個Server相關資訊設定成下一次要投票的Server；
5. 執行緒將當前zxid最大的Server設定為當前Server要推薦的Leader，如果此時獲勝的Server獲得n/2 + 1的Server票數，設定當前推薦的leader為獲勝的Server，將根據獲勝的Server相關資訊設定自己的狀態，否則，繼續這個過程，直到leader被選舉出來。

通過流程分析我們可以得出：要使Leader獲得多數Server的支援，則Server總數必須是奇數2n+1，且存活的Server的數目不得少於n+1.

每個Server啟動後都會重複以上流程。在恢復模式下，如果是剛從崩潰狀態恢復的或者剛啟動的server還會從磁碟快照中恢復資料和會話資訊，zk會記錄事務日誌並定期進行快照，方便在恢復時進行狀態恢復。選主的具體流程圖如下所示：

fast paxos流程是在選舉過程中，某Server首先向所有Server提議自己要成為leader，當其它Server收到提議以後，解決epoch和zxid的衝突，並接受對方的提議，然後向對方傳送接受提議完成的訊息，重複這個流程，最後一定能選舉出Leader。其流程圖如下所示：

2.2 同步流程

選完leader以後，zk就進入狀態同步過程。把follower的資料同步給leader的過程：

1. leader等待server連線；
2 .Follower連線leader，將最大的zxid傳送給leader；
3 .Leader根據follower的zxid確定同步點；
4 .完成同步後通知follower 已經成為uptodate狀態；
5 .Follower收到uptodate訊息後，又可以重新接受client的請求進行服務了。

流程圖如下所示：

2.3 工作流程

2.3.1 Leader工作流程

Leader主要有三個功能：

1 .恢復資料；
2 .維持與Learner的心跳，接收Learner請求並判斷Learner的請求訊息型別；
3 .Learner的訊息型別主要有PING訊息、REQUEST訊息、ACK訊息、REVALIDATE訊息，根據不同的訊息型別，進行不同的處理。

PING訊息是指Learner的心跳資訊；REQUEST訊息是Follower傳送的提議資訊，包括寫請求及同步請求；ACK訊息是Follower的對提議的回覆，超過半數的Follower通過，則commit該提議；REVALIDATE訊息是用來延長SESSION有效時間。
Leader的工作流程簡圖如下所示，在實際實現中，流程要比下圖複雜得多，啟動了三個執行緒來實現功能。

2.3.2 Follower工作流程

Follower主要有四個功能：

1. 向Leader傳送請求（PING訊息、REQUEST訊息、ACK訊息、REVALIDATE訊息）；
2 .接收Leader訊息並進行處理；
3 .接收Client的請求，如果為寫請求，傳送給Leader進行投票；
4 .返回Client結果。

Follower的訊息迴圈處理如下幾種來自Leader的訊息：

1 .PING訊息：心跳訊息；
2 .PROPOSAL訊息：Leader發起的提案，要求Follower投票；
3 .COMMIT訊息：伺服器端最新一次提案的資訊；
4 .UPTODATE訊息：表明同步完成；
5 .REVALIDATE訊息：根據Leader的REVALIDATE結果，關閉待revalidate的session還是允許其接受訊息；
6 .SYNC訊息：返回SYNC結果到客戶端，這個訊息最初由客戶端發起，用來強制得到最新的更新。

Follower的工作流程簡圖如下所示，在實際實現中，Follower是通過5個執行緒來實現功能的。

對於observer的流程不再敘述，observer流程和Follower的唯一不同的地方就是observer不會參加leader發起的投票。

主流應用場景：

Zookeeper的主流應用場景實現思路（除去官方示例）

(1)配置管理
集中式的配置管理在應用叢集中是非常常見的，一般商業公司內部都會實現一套集中的配置管理中心，應對不同的應用叢集對於共享各自配置的需求，並且在配置變更時能夠通知到叢集中的每一個機器。

Zookeeper很容易實現這種集中式的配置管理，比如將APP1的所有配置配置到/APP1 znode下，APP1所有機器一啟動就對/APP1這個節點進行監控(zk.exist("/APP1",true)),並且實現回撥方法Watcher，那麼在zookeeper上/APP1 znode節點下資料發生變化的時候，每個機器都會收到通知，Watcher方法將會被執行，那麼應用再取下資料即可(zk.getData("/APP1",false,null));

以上這個例子只是簡單的粗顆粒度配置監控，細顆粒度的資料可以進行分層級監控，這一切都是可以設計和控制的。

(2)叢集管理
應用叢集中，我們常常需要讓每一個機器知道叢集中（或依賴的其他某一個叢集）哪些機器是活著的，並且在叢集機器因為當機，網路斷鏈等原因能夠不在人工介入的情況下迅速通知到每一個機器。

Zookeeper同樣很容易實現這個功能，比如我在zookeeper伺服器端有一個znode叫/APP1SERVERS,那麼叢集中每一個機器啟動的時候都去這個節點下建立一個EPHEMERAL型別的節點，比如server1建立/APP1SERVERS/SERVER1(可以使用ip,保證不重複)，server2建立/APP1SERVERS/SERVER2，然後SERVER1和SERVER2都watch /APP1SERVERS這個父節點，那麼也就是這個父節點下資料或者子節點變化都會通知對該節點進行watch的客戶端。因為EPHEMERAL型別節點有一個很重要的特性，就是客戶端和伺服器端連線斷掉或者session過期就會使節點消失，那麼在某一個機器掛掉或者斷鏈的時候，其對應的節點就會消失，然後叢集中所有對/APP1SERVERS進行watch的客戶端都會收到通知，然後取得最新列表即可。

另外有一個應用場景就是叢集選master,一旦master掛掉能夠馬上能從slave中選出一個master,實現步驟和前者一樣，只是機器在啟動的時候在APP1SERVERS建立的節點型別變為EPHEMERAL_SEQUENTIAL型別，這樣每個節點會自動被編號

我們預設規定編號最小的為master,所以當我們對/APP1SERVERS節點做監控的時候，得到伺服器列表，只要所有叢集機器邏輯認為最小編號節點為master，那麼master就被選出，而這個master當機的時候，相應的znode會消失，然後新的伺服器列表就被推送到客戶端，然後每個節點邏輯認為最小編號節點為master，這樣就做到動態master選舉。

Zookeeper 監視（Watches）簡介

Zookeeper C API 的宣告和描述在 include/zookeeper.h 中可以找到，另外大部分的 Zookeeper C API 常量、結構體宣告也在 zookeeper.h 中，如果如果你在使用 C API 是遇到不明白的地方，最好看看 zookeeper.h，或者自己使用 doxygen 生成 Zookeeper C API 的幫助文件。

Zookeeper 中最有特色且最不容易理解的是監視(Watches)。Zookeeper 所有的讀操作——getData(), getChildren(), 和 exists() 都可以設定監視(watch)，監視事件可以理解為一次性的觸發器，官方定義如下： a watch event is one-time trigger, sent to the client that set the watch, which occurs when the data for which the watch was set changes。對此需要作出如下理解：

（一次性觸發）One-time trigger

當設定監視的資料發生改變時，該監視事件會被髮送到客戶端，例如，如果客戶端呼叫了 getData("/znode1", true) 並且稍後 /znode1 節點上的資料發生了改變或者被刪除了，客戶端將會獲取到 /znode1 發生變化的監視事件，而如果 /znode1 再一次發生了變化，除非客戶端再次對 /znode1 設定監視，否則客戶端不會收到事件通知。
（傳送至客戶端）Sent to the client

Zookeeper 客戶端和服務端是通過 socket 進行通訊的，由於網路存在故障，所以監視事件很有可能不會成功地到達客戶端，監視事件是非同步傳送至監視者的，Zookeeper 本身提供了保序性(ordering guarantee)：即客戶端只有首先看到了監視事件後，才會感知到它所設定監視的 znode 發生了變化(a client will never see a change for which it has set a watch until it first sees the watch event). 網路延遲或者其他因素可能導致不同的客戶端在不同的時刻感知某一監視事件，但是不同的客戶端所看到的一切具有一致的順序。
（被設定 watch 的資料）The data for which the watch was set

這意味著 znode 節點本身具有不同的改變方式。你也可以想象 Zookeeper 維護了兩條監視連結串列：資料監視和子節點監視(data watches and child watches) getData() and exists() 設定資料監視，getChildren() 設定子節點監視。或者，你也可以想象 Zookeeper 設定的不同監視返回不同的資料，getData() 和 exists() 返回 znode 節點的相關資訊，而 getChildren() 返回子節點列表。因此， setData() 會觸發設定在某一節點上所設定的資料監視(假定資料設定成功)，而一次成功的 create() 操作則會出發當前節點上所設定的資料監視以及父節點的子節點監視。一次成功的 delete() 操作將會觸發當前節點的資料監視和子節點監視事件，同時也會觸發該節點父節點的child watch。

Zookeeper 中的監視是輕量級的，因此容易設定、維護和分發。當客戶端與 Zookeeper 伺服器端失去聯絡時，客戶端並不會收到監視事件的通知，只有當客戶端重新連線後，若在必要的情況下，以前註冊的監視會重新被註冊並觸發，對於開發人員來說這通常是透明的。只有一種情況會導致監視事件的丟失，即：通過 exists() 設定了某個 znode 節點的監視，但是如果某個客戶端在此 znode 節點被建立和刪除的時間間隔內與 zookeeper 伺服器失去了聯絡，該客戶端即使稍後重新連線 zookeeper伺服器後也得不到事件通知。

Zookeeper C API 常量與部分結構(struct)介紹

與 ACL 相關的結構與常量：

struct Id 結構為：

struct Id {     char * scheme;     char * id; };

struct ACL 結構為：

struct ACL {     int32_t perms;     struct Id id; };

struct ACL_vector 結構為：

struct ACL_vector {     int32_t count;     struct ACL *data; };

與 znode 訪問許可權有關的常量

const int ZOO_PERM_READ; //允許客戶端讀取 znode 節點的值以及子節點列表。
const int ZOO_PERM_WRITE;// 允許客戶端設定 znode 節點的值。
const int ZOO_PERM_CREATE; //允許客戶端在該 znode 節點下建立子節點。
const int ZOO_PERM_DELETE;//允許客戶端刪除子節點。
const int ZOO_PERM_ADMIN; //允許客戶端執行 set_acl()。
const int ZOO_PERM_ALL;//允許客戶端執行所有操作，等價與上述所有標誌的或(OR) 。

與 ACL IDs 相關的常量

struct Id ZOO_ANYONE_ID_UNSAFE; //(‘world’,’anyone’)
struct Id ZOO_AUTH_IDS;// (‘auth’,’’)

三種標準的 ACL

struct ACL_vector ZOO_OPEN_ACL_UNSAFE; //(ZOO_PERM_ALL,ZOO_ANYONE_ID_UNSAFE)
struct ACL_vector ZOO_READ_ACL_UNSAFE;// (ZOO_PERM_READ, ZOO_ANYONE_ID_UNSAFE)
struct ACL_vector ZOO_CREATOR_ALL_ACL; //(ZOO_PERM_ALL,ZOO_AUTH_IDS)

與 Interest 相關的常量：ZOOKEEPER_WRITE, ZOOKEEPER_READ

這兩個常量用於標識感興趣的事件並通知 zookeeper 發生了哪些事件。Interest 常量可以進行組合或（OR）來標識多種興趣(multiple interests: write, read)，這兩個常量一般用於 zookeeper_interest() 和 zookeeper_process()兩個函式中。

與節點建立相關的常量：ZOO_EPHEMERAL, ZOO_SEQUENCE

zoo_create 函式標誌，ZOO_EPHEMERAL 用來標識建立臨時節點，ZOO_SEQUENCE 用來標識節點命名具有遞增的字尾序號(一般是節點名稱後填充 10 位字元的序號，如 /xyz0000000000, /xyz0000000001, /xyz0000000002, ...)，同樣地，ZOO_EPHEMERAL, ZOO_SEQUENCE 可以組合。

與連線狀態 Stat 相關的常量

以下常量均與 Zookeeper 連線狀態有關，他們通常用作監視器回撥函式的引數。

ZOOAPI const int	ZOO_EXPIRED_SESSION_STATE
ZOOAPI const int	ZOO_AUTH_FAILED_STATE
ZOOAPI const int	ZOO_CONNECTING_STATE
ZOOAPI const int	ZOO_ASSOCIATING_STATE
ZOOAPI const int	ZOO_CONNECTED_STATE

與監視型別(Watch Types)相關的常量

以下常量標識監視事件的型別，他們通常用作監視器回撥函式的第一個引數。

ZOO_CREATED_EVENT; // 節點被建立(此前該節點不存在)，通過 zoo_exists() 設定監視。
ZOO_DELETED_EVENT; // 節點被刪除，通過 zoo_exists() 和 zoo_get() 設定監視。
ZOO_CHANGED_EVENT; // 節點發生變化，通過 zoo_exists() 和 zoo_get() 設定監視。
ZOO_CHILD_EVENT; // 子節點事件，通過zoo_get_children() 和 zoo_get_children2()設定監視。
ZOO_SESSION_EVENT; // 會話丟失
ZOO_NOTWATCHING_EVENT; // 監視被移除。

Zookeeper C API 錯誤碼介紹 ZOO_ERRORS

ZOK	正常返回
ZSYSTEMERROR	系統或伺服器端錯誤(System and server-side errors)，伺服器不會丟擲該錯誤，該錯誤也只是用來標識錯誤範圍的，即大於該錯誤值，且小於 ZAPIERROR 都是系統錯誤。
ZRUNTIMEINCONSISTENCY	執行時非一致性錯誤。
ZDATAINCONSISTENCY	資料非一致性錯誤。
ZCONNECTIONLOSS	Zookeeper 客戶端與伺服器端失去連線
ZMARSHALLINGERROR	在 marshalling 和 unmarshalling 資料時出現錯誤(Error while marshalling or unmarshalling data)
ZUNIMPLEMENTED	該操作未實現(Operation is unimplemented)
ZOPERATIONTIMEOUT	該操作超時(Operation timeout)
ZBADARGUMENTS	非法引數錯誤(Invalid arguments)
ZINVALIDSTATE	非法控制程式碼狀態(Invliad zhandle state)
ZAPIERROR	API 錯誤(API errors)，伺服器不會丟擲該錯誤，該錯誤也只是用來標識錯誤範圍的，錯誤值大於該值的標識 API 錯誤，而小於該值的標識 ZSYSTEMERROR。
ZNONODE	節點不存在(Node does not exist)
ZNOAUTH	沒有經過授權(Not authenticated)
ZBADVERSION	版本衝突(Version conflict)
ZNOCHILDRENFOREPHEMERALS	臨時節點不能擁有子節點(Ephemeral nodes may not have children)
ZNODEEXISTS	節點已經存在(The node already exists)
ZNOTEMPTY	該節點具有自身的子節點(The node has children)
ZSESSIONEXPIRED	會話過期(The session has been expired by the server)
ZINVALIDCALLBACK	非法的回撥函式(Invalid callback specified)
ZINVALIDACL	非法的ACL(Invalid ACL specified)
ZAUTHFAILED	客戶端授權失敗(Client authentication failed)
ZCLOSING	Zookeeper 連線關閉(ZooKeeper is closing)
ZNOTHING	並非錯誤，客戶端不需要處理伺服器的響應(not error, no server responses to process)
ZSESSIONMOVED	會話轉移至其他伺服器，所以操作被忽略(session moved to another server, so operation is ignored)

Watch事件型別：

ZOO_CREATED_EVENT：節點建立事件，需要watch一個不存在的節點，當節點被建立時觸發，此watch通過zoo_exists()設定
ZOO_DELETED_EVENT：節點刪除事件，此watch通過zoo_exists()或zoo_get()設定
ZOO_CHANGED_EVENT：節點資料改變事件，此watch通過zoo_exists()或zoo_get()設定
ZOO_CHILD_EVENT：子節點列表改變事件，此watch通過zoo_get_children()或zoo_get_children2()設定
ZOO_SESSION_EVENT：會話失效事件，客戶端與服務端斷開或重連時觸發
ZOO_NOTWATCHING_EVENT：watch移除事件，服務端出於某些原因不再為客戶端watch節點時觸發

3.Zk在Dubbo中的作用

zk在dubbo中是服務註冊與發現的註冊中心,dubbo的呼叫過程是consumer和provider在啟動的時候就和註冊中心建立一個socket長連線。provider將自己的服務註冊到註冊中心上,註冊中心將可用的提供者列表notify給consumer,consumer會將列表儲存到本地快取,consumer選舉出一個要呼叫的提供者,去遠端呼叫。zookeeper通過心跳機制可以檢測掛掉的機器並將掛掉機器的ip和服務對應關係從列表中刪除

Dubbo的將註冊中心進行抽象，是得它可以外接不同的儲存媒介給註冊中心提供服務，有ZooKeeper，Memcached，Redis等。
為什麼使用了ZooKeeper作為儲存媒介？

負載均衡，單註冊中心的承載能力是有限的，在流量達到一定程度的時候就需要分流，負載均衡就是為了分流而存在的，一個ZooKeeper群配合相應的Web應用就可以很容易達到負載均衡；

資源同步，單單有負載均衡還不夠，節點之間的資料和資源需要同步，ZooKeeper叢集就天然具備有這樣的功能；

命名服務，這個是zk專有的特性，將樹狀結構用於維護全域性的服務地址列表，服務提供者在啟動的時候，向ZK上的指定節點/dubbo/${serviceName}/providers目錄下寫入自己的URL地址，這個操作就完成了服務的釋出。其他特性還有Mast選舉，分散式鎖等。

zookeeper的原理和使用（二）-leader選舉
2018-12-12
Zookeeper原始碼（啟動+選舉）
2020-11-07
原始碼
zookeeper（四）領導者選舉
2020-10-23
Zookeeper原始碼分析-Zookeeper Leader選舉演算法
2018-09-09
原始碼演算法
zookeeper原始碼(04)leader選舉流程
2023-11-07
原始碼
深入淺出Zookeeper（七）：Leader選舉
2020-06-15
Zookeeper(4)---ZK叢集部署和選舉
2020-11-11
Zookeeper 的選舉機制也不過如此！
2021-03-26
超細！細說Zookeeper選舉的一個案例（下）
2021-12-20
超細！細說Zookeeper選舉的一個案例（上）
2021-12-17
Zookeeper分散式過程協同技術 - 群首選舉
2020-06-27
分散式
面試官：說一說Zookeeper中Leader選舉機制
2022-04-07
面試
Zookeeper深入原理
2020-11-30
ZooKeeper-3.4.6叢集選舉Bug踩坑與恢復記錄
2024-02-08
分散式協調元件Zookeeper之選舉機制與ZAB協議
2021-09-02
分散式元件協議
面試題：說說你對ZooKeeper叢集與Leader選舉的理解？
2019-04-09
面試題
zookeeper使用和原理探究
2018-11-30
Zookeeper watch機制原理
2020-10-30
好程式設計師大資料技術分享：Zookeeper叢集管理與選舉
2019-03-28
程式設計師大資料
好程式設計師大資料技術分享Zookeeper叢集管理與選舉
2019-05-29
程式設計師大資料
zab選舉
2020-11-22
zookeeper的原理和使用（一）
2018-12-12
一文搞懂Zookeeper原理
2022-02-11
深入瞭解Zookeeper核心原理
2021-04-28
什麼是Zookeeper?（動態的服務註冊和發現、Master選舉、分散式鎖）
2019-09-08
AST分散式
zookeeper的新選擇--CxxZookeeper
2018-03-08
zookeeper的基本原理(二）
2020-11-22
Zookeeper watcher 事件機制原理剖析
2021-09-09
事件
Zookeeper ZAB協議原理淺析
2020-12-19
協議
副本集選舉
2024-07-07
光功率計的工作原理什麼該怎麼選
2021-05-26
Zookeeper的選舉機制和同步機制超詳細講解，面試經常問到！
2021-10-08
面試
ZooKeeper核心原理及應用場景
2020-06-09
Zookeeper基礎概念及相關原理
2019-03-05
Dubbo 中 Zookeeper 註冊中心原理分析
2023-02-02
zk選舉過程
2018-03-20
KubernetesAPIserver工作原理
2018-11-21
APIServer
Mybatis工作原理
2018-10-09
MyBatis

ZooKeeper 工作、選舉 原理