【分散式】Zookeeper應用場景

中午君發表於2019-01-22

一、前言

  在上一篇部落格已經介紹了Zookeeper開源客戶端的簡單實用,本篇講解Zookeeper的應用場景。

二、典型應用場景

  Zookeeper是一個高可用的分散式資料管理和協調框架,並且能夠很好的保證分散式環境中資料的一致性。在越來越多的分散式系統(Hadoop、HBase、Kafka)中,Zookeeper都作為核心元件使用。

  2.1 資料釋出/訂閱

  資料釋出/訂閱系統,即配置中心。需要釋出者將資料釋出到Zookeeper的節點上,供訂閱者進行資料訂閱,進而達到動態獲取資料的目的,實現配置資訊的集中式管理和資料的動態更新。釋出/訂閱一般有兩種設計模式:推模式和拉模式,服務端主動將資料更新傳送給所有訂閱的客戶端稱為推模式;客戶端主動請求獲取最新資料稱為拉模式,Zookeeper採用了推拉相結合的模式,客戶端向服務端註冊自己需要關注的節點,一旦該節點資料發生變更,那麼服務端就會向相應的客戶端推送Watcher事件通知,客戶端接收到此通知後,主動到服務端獲取最新的資料。

  若將配置資訊存放到Zookeeper上進行集中管理,在通常情況下,應用在啟動時會主動到Zookeeper服務端上進行一次配置資訊的獲取,同時,在指定節點上註冊一個Watcher監聽,這樣在配置資訊發生變更,服務端都會實時通知所有訂閱的客戶端,從而達到實時獲取最新配置的目的。

  2.2 負載均衡

  負載均衡是一種相當常見的計算機網路技術,用來對多個計算機、網路連線、CPU、磁碟驅動或其他資源進行分配負載,以達到優化資源使用、最大化吞吐率、最小化響應時間和避免過載的目的。

  使用Zookeeper實現動態DNS服務

  · 域名配置,首先在Zookeeper上建立一個節點來進行域名配置,如DDNS/app1/server.app1.company1.com。

  · 域名解析,應用首先從域名節點中獲取IP地址和埠的配置,進行自行解析。同時,應用程式還會在域名節點上註冊一個資料變更Watcher監聽,以便及時收到域名變更的通知。

  · 域名變更,若發生IP或埠號變更,此時需要進行域名變更操作,此時,只需要對指定的域名節點進行更新操作,Zookeeper就會向訂閱的客戶端傳送這個事件通知,客戶端之後就再次進行域名配置的獲取。

  2.3 命名服務

  命名服務是分步實現系統中較為常見的一類場景,分散式系統中,被命名的實體通常可以是叢集中的機器、提供的服務地址或遠端物件等,通過命名服務,客戶端可以根據指定名字來獲取資源的實體、服務地址和提供者的資訊。Zookeeper也可幫助應用系統通過資源引用的方式來實現對資源的定位和使用,廣義上的命名服務的資源定位都不是真正意義上的實體資源,在分散式環境中,上層應用僅僅需要一個全域性唯一的名字。Zookeeper可以實現一套分散式全域性唯一ID的分配機制。

  通過呼叫Zookeeper節點建立的API介面就可以建立一個順序節點,並且在API返回值中會返回這個節點的完整名字,利用此特性,可以生成全域性ID,其步驟如下

  1. 客戶端根據任務型別,在指定型別的任務下通過呼叫介面建立一個順序節點,如"job-"。

  2. 建立完成後,會返回一個完整的節點名,如"job-00000001"。

  3. 客戶端拼接type型別和返回值後,就可以作為全域性唯一ID了,如"type2-job-00000001"。

  2.4 分散式協調/通知

  Zookeeper中特有的Watcher註冊於非同步通知機制,能夠很好地實現分散式環境下不同機器,甚至不同系統之間的協調與通知,從而實現對資料變更的實時處理。通常的做法是不同的客戶端都對Zookeeper上的同一個資料節點進行Watcher註冊,監聽資料節點的變化(包括節點本身和子節點),若資料節點發生變化,那麼所有訂閱的客戶端都能夠接收到相應的Watcher通知,並作出相應處理。

  MySQL資料複製匯流排是一個實時的資料複製框架,用於在不同的MySQL資料庫例項之間進行非同步資料複製和資料變化通知,整個系統由MySQL資料庫叢集、訊息佇列系統、任務管理監控平臺、Zookeeper叢集等元件共同構成的一個包含生產者、複製管道、資料消費等部分的資料匯流排系統。

  Zookeeper主要負責進行分散式協調工作,在具體的實現上,根據功能將資料複製元件劃分為三個模組:Core(實現資料複製核心邏輯,將資料複製封裝成管道,並抽象出生產者和消費者概念)、Server(啟動和停止複製任務)、Monitor(監控任務的執行狀態,若資料複製期間發生異常或出現故障則進行告警)

  每個模組作為獨立的程式執行在服務端,執行時的資料和配置資訊均儲存在Zookeeper上。

  

任務建立,Core程式啟動時,首先向/mysql_replicator/tasks節點註冊任務,如建立一個子節點/mysql_replicator/tasks/copy_hot/item,若註冊過程中發現該子節點已經存在,說明已經有其他Task機器註冊了該任務,因此其自身不需要再建立該節點。

  ② 任務熱備份,為了應對任務故障或者複製任務所在主機故障,複製元件採用"熱備份"的容災方式,即將同一個複製任務部署在不同的主機上,主備任務機通過Zookeeper互相檢測執行監控狀況。無論在第一步是否建立了任務節點,每臺機器都需要在/mysql_replicator/tasks/copy_hot_item/instrances節點上將自己的主機名註冊上去,節點型別為臨時順序節點,在完成子節點建立後,每天任務機器都可以獲取到自己建立的節點名及所有子節點列表,然後通過對比判斷自己是否是所有子節點中序號最小的,若是,則將自己執行狀態設定為RUNNING,其他機器設定為STANDBY,這種策略稱為小序號優先策略。

  ③ 熱備切換,完成執行狀態的標示後,其中標記為RUNNING的客戶端機器進行正常的資料複製,而標記為STANDBY的機器則進入待命狀態,一旦RUNNING機器出現故障,那麼所有標記為STANDBY的機器再次按照小序號優先策略來選出RUNNIG機器執行(STANDY機器需要在/mysql_replicator/tasks/copy_hot_item/instances節點上註冊一個子節點列表變更監聽,RUNNING機器當機與Zookeeper斷開連線後,對應的節點也會消失,於是所有客戶端收到通知,進行新一輪選舉)。

  ④ 記錄執行狀態,RUNNING機器需要將執行時的上下文狀態保留給STANDBY機器。

  ⑤ 控制檯協調,Server的主要工作就是進行任務控制,通過Zookeeper來對不同任務進行控制和協調,Server會將每個複製任務對應生產者的後設資料及消費者的相關資訊以配置的形式寫入任務節點/mysql_replicator/tasks/copy_hot_item中去,以便該任務的所有任務機器都能夠共享複製任務的配置。

  在上述熱備份方案中,針對一個任務,都會至少分配兩臺任務機器來進行熱備份(RUNNING和STANDBY、即主備機器),若需要MySQL例項需要進行資料複製,那麼需要消耗太多機器。此時,需要使用冷備份方案,其對所有任務進行分組。

  Core程式被配置了所屬組(Group),即若一個Core程式被標記了group1,那麼在Core程式啟動後,會到對應的Zookeeper group1節點下面獲取所有的Task列表,假如找到任務"copy_hot_item"之後,就會遍歷這個Task列表的instances節點,但凡還沒有子節點,則建立一個臨時的順序節點如/mysql_replicator/task-groups/group1/copy_hot_item/instances/[Hostname]-1,當然,在這個過程中,其他Core程式也會在這個instances節點下建立類似的子節點,按照"小序號優先"策略確定RUNNING,不同的是,其他Core程式會自動刪除自己建立的子節點,然後遍歷下一個Task節點,這樣的過程稱為冷備份掃描,這樣,所有的Core程式在掃描週期內不斷地對相應的Group下來的Task進行冷備份。

  在絕大多數分散式系統中,系統機器間的通訊無外乎心跳檢測工作進度彙報系統排程

  ① 心跳檢測,不同機器間需要檢測到彼此是否在正常執行,可以使用Zookeeper實現機器間的心跳檢測,基於其臨時節點特性(臨時節點的生存週期是客戶端會話,客戶端若當即後,其臨時節點自然不再存在),可以讓不同機器都在Zookeeper的一個指定節點下建立臨時子節點,不同的機器之間可以根據這個臨時子節點來判斷對應的客戶端機器是否存活。通過Zookeeper可以大大減少系統耦合。

  ② 工作進度彙報,通常任務被分發到不同機器後,需要實時地將自己的任務執行進度彙報給分發系統,可以在Zookeeper上選擇一個節點,每個任務客戶端都在這個節點下面建立臨時子節點,這樣不僅可以判斷機器是否存活,同時各個機器可以將自己的任務執行進度寫到該臨時節點中去,以便中心繫統能夠實時獲取任務的執行進度。

  ③ 系統排程,Zookeeper能夠實現如下系統排程模式:分散式系統由控制檯和一些客戶端系統兩部分構成,控制檯的職責就是需要將一些指令資訊傳送給所有的客戶端,以控制他們進行相應的業務邏輯,後臺管理人員在控制檯上做一些操作,實際上就是修改Zookeeper上某些節點的資料,Zookeeper可以把資料變更以時間通知的形式傳送給訂閱客戶端。

  2.5 叢集管理

  Zookeeper的兩大特性:

  · 客戶端如果對Zookeeper的資料節點註冊Watcher監聽,那麼當該資料及誒單內容或是其子節點列表發生變更時,Zookeeper伺服器就會向訂閱的客戶端傳送變更通知。

  · 對在Zookeeper上建立的臨時節點,一旦客戶端與伺服器之間的會話失效,那麼臨時節點也會被自動刪除。

  利用其兩大特性,可以實現叢集機器存活監控系統,若監控系統在/clusterServers節點上註冊一個Watcher監聽,那麼但凡進行動態新增機器的操作,就會在/clusterServers節點下建立一個臨時節點:/clusterServers/[Hostname],這樣,監控系統就能夠實時監測機器的變動情況。下面通過分散式日誌收集系統的典型應用來學習Zookeeper如何實現叢集管理。

  分散式日誌收集系統的核心工作就是收集分佈在不同機器上的系統日誌,在典型的日誌系統架構設計中,整個日誌系統會把所有需要收集的日誌機器分為多個組別,每個組別對應一個收集器,這個收集器其實就是一個後臺機器,用於收集日誌,對於大規模的分散式日誌收集系統場景,通常需要解決兩個問題:

  · 變化的日誌源機器

  · 變化的收集器機器

  無論是日誌源機器還是收集器機器的變更,最終都可以歸結為如何快速、合理、動態地為每個收集器分配對應的日誌源機器。使用Zookeeper的場景步驟如下

  ① 註冊收集器機器,在Zookeeper上建立一個節點作為收集器的根節點,例如/logs/collector的收集器節點,每個收集器機器啟動時都會在收集器節點下建立自己的節點,如/logs/collector/[Hostname]

  ② 任務分發,所有收集器機器都建立完對應節點後,系統根據收集器節點下子節點的個數,將所有日誌源機器分成對應的若干組,然後將分組後的機器列表分別寫到這些收集器機器建立的子節點,如/logs/collector/host1上去。這樣,收集器機器就能夠根據自己對應的收集器節點上獲取日誌源機器列表,進而開始進行日誌收集工作。

  ③ 狀態彙報,完成任務分發後,機器隨時會當機,所以需要有一個收集器的狀態彙報機制,每個收集器機器上建立完節點後,還需要再對應子節點上建立一個狀態子節點,如/logs/collector/host/status,每個收集器機器都需要定期向該結點寫入自己的狀態資訊,這可看做是心跳檢測機制,通常收集器機器都會寫入日誌收集狀態資訊,日誌系統通過判斷狀態子節點最後的更新時間來確定收集器機器是否存活。

  ④ 動態分配,若收集器機器當機,則需要動態進行收集任務的分配,收集系統執行過程中關注/logs/collector節點下所有子節點的變更,一旦有機器停止彙報或有新機器加入,就開始進行任務的重新分配,此時通常由兩種做法:

  · 全域性動態分配,當收集器機器當機或有新的機器加入,系統根據新的收集器機器列表,立即對所有的日誌源機器重新進行一次分組,然後將其分配給剩下的收集器機器。

  · 區域性動態分配,每個收集器機器在彙報自己日誌收集狀態的同時,也會把自己的負載彙報上去,如果一個機器當機了,那麼日誌系統就會把之前分配給這個機器的任務重新分配到那些負載較低的機器,同樣,如果有新機器加入,會從那些負載高的機器上轉移一部分任務給新機器。

  上述步驟已經完整的說明了整個日誌收集系統的工作流程,其中有兩點注意事項。

  ①節點型別,在/logs/collector節點下建立臨時節點可以很好的判斷機器是否存活,但是,若機器掛了,其節點會被刪除,記錄在節點上的日誌源機器列表也被清除,所以需要選擇持久節點來標識每一臺機器,同時在節點下分別建立/logs/collector/[Hostname]/status節點來表徵每一個收集器機器的狀態,這樣,既能實現對所有機器的監控,同時機器掛掉後,依然能夠將分配任務還原。

  日誌系統節點監聽,若採用Watcher機制,那麼通知的訊息量的網路開銷非常大,需要採用日誌系統主動輪詢收集器節點的策略,這樣可以節省網路流量,但是存在一定的延時。

  2.6 Master選舉

  在分散式系統中,Master往往用來協調叢集中其他系統單元,具有對分散式系統狀態變更的決定權,如在讀寫分離的應用場景中,客戶端的寫請求往往是由Master來處理,或者其常常處理一些複雜的邏輯並將處理結果同步給其他系統單元。利用Zookeeper的強一致性,能夠很好地保證在分散式高併發情況下節點的建立一定能夠保證全域性唯一性,即Zookeeper將會保證客戶端無法重複建立一個已經存在的資料節點。

  首先建立/master_election/2016-11-12節點,客戶端叢集每天會定時往該節點下建立臨時節點,如/master_election/2016-11-12/binding,這個過程中,只有一個客戶端能夠成功建立,此時其變成master,其他節點都會在節點/master_election/2016-11-12上註冊一個子節點變更的Watcher,用於監控當前的Master機器是否存活,一旦發現當前Master掛了,其餘客戶端將會重新進行Master選舉。

  2.7 分散式鎖

  分散式鎖用於控制分散式系統之間同步訪問共享資源的一種方式,可以保證不同系統訪問一個或一組資源時的一致性,主要分為排它鎖和共享鎖。

  排它鎖又稱為寫鎖或獨佔鎖,若事務T1對資料物件O1加上了排它鎖,那麼在整個加鎖期間,只允許事務T1對O1進行讀取和更新操作,其他任何事務都不能再對這個資料物件進行任何型別的操作,直到T1釋放了排它鎖。

  ① 獲取鎖,在需要獲取排它鎖時,所有客戶端通過呼叫介面,在/exclusive_lock節點下建立臨時子節點/exclusive_lock/lock。Zookeeper可以保證只有一個客戶端能夠建立成功,沒有成功的客戶端需要註冊/exclusive_lock節點監聽。

  ② 釋放鎖,當獲取鎖的客戶端當機或者正常完成業務邏輯都會導致臨時節點的刪除,此時,所有在/exclusive_lock節點上註冊監聽的客戶端都會收到通知,可以重新發起分散式鎖獲取。

  共享鎖又稱為讀鎖,若事務T1對資料物件O1加上共享鎖,那麼當前事務只能對O1進行讀取操作,其他事務也只能對這個資料物件加共享鎖,直到該資料物件上的所有共享鎖都被釋放。

  ① 獲取鎖,在需要獲取共享鎖時,所有客戶端都會到/shared_lock下面建立一個臨時順序節點,如果是讀請求,那麼就建立例如/shared_lock/host1-R-00000001的節點,如果是寫請求,那麼就建立例如/shared_lock/host2-W-00000002的節點。

  ② 判斷讀寫順序,不同事務可以同時對一個資料物件進行讀寫操作,而更新操作必須在當前沒有任何事務進行讀寫情況下進行,通過Zookeeper來確定分散式讀寫順序,大致分為四步。

    1. 建立完節點後,獲取/shared_lock節點下所有子節點,並對該節點變更註冊監聽。

    2. 確定自己的節點序號在所有子節點中的順序。

    3. 對於讀請求:若沒有比自己序號小的子節點或所有比自己序號小的子節點都是讀請求,那麼表明自己已經成功獲取到共享鎖,同時開始執行讀取邏輯,若有寫請求,則需要等待。對於寫請求:若自己不是序號最小的子節點,那麼需要等待。

    4. 接收到Watcher通知後,重複步驟1。

  ③ 釋放鎖,其釋放鎖的流程與獨佔鎖一致。

  上述共享鎖的實現方案,可以滿足一般分散式叢集競爭鎖的需求,但是如果機器規模擴大會出現一些問題,下面著重分析判斷讀寫順序的步驟3。

  針對如上圖所示的情況進行分析

  1. host1首先進行讀操作,完成後將節點/shared_lock/host1-R-00000001刪除。

  2. 餘下4臺機器均收到這個節點移除的通知,然後重新從/shared_lock節點上獲取一份新的子節點列表。

  3. 每臺機器判斷自己的讀寫順序,其中host2檢測到自己序號最小,於是進行寫操作,餘下的機器則繼續等待。

  4. 繼續...

  可以看到,host1客戶端在移除自己的共享鎖後,Zookeeper傳送了子節點更變Watcher通知給所有機器,然而除了給host2產生影響外,對其他機器沒有任何作用。大量的Watcher通知和子節點列表獲取兩個操作會重複執行,這樣會造成系能鞥影響和網路開銷,更為嚴重的是,如果同一時間有多個節點對應的客戶端完成事務或事務中斷引起節點小時,Zookeeper伺服器就會在短時間內向其他所有客戶端傳送大量的事件通知,這就是所謂的羊群效應

  可以有如下改動來避免羊群效應。

  1. 客戶端呼叫create介面常見類似於/shared_lock/[Hostname]-請求型別-序號的臨時順序節點。

  2. 客戶端呼叫getChildren介面獲取所有已經建立的子節點列表(不註冊任何Watcher)。

  3. 如果無法獲取共享鎖,就呼叫exist介面來對比自己小的節點註冊Watcher。對於讀請求:向比自己序號小的最後一個寫請求節點註冊Watcher監聽。對於寫請求:向比自己序號小的最後一個節點註冊Watcher監聽。

  4. 等待Watcher通知,繼續進入步驟2。

  此方案改動主要在於:每個鎖競爭者,只需要關注/shared_lock節點下序號比自己小的那個節點是否存在即可。

  2.8 分散式佇列

  分散式佇列可以簡單分為先入先出佇列模型等待佇列元素聚集後統一安排處理執行的Barrier模型

  ① FIFO先入先出,先進入佇列的請求操作先完成後,才會開始處理後面的請求。FIFO佇列就類似於全寫的共享模型,所有客戶端都會到/queue_fifo這個節點下建立一個臨時節點,如/queue_fifo/host1-00000001。

  建立完節點後,按照如下步驟執行。

  1. 通過呼叫getChildren介面來獲取/queue_fifo節點的所有子節點,即獲取佇列中所有的元素。

  2. 確定自己的節點序號在所有子節點中的順序。

  3. 如果自己的序號不是最小,那麼需要等待,同時向比自己序號小的最後一個節點註冊Watcher監聽。

  4. 接收到Watcher通知後,重複步驟1。

  ② Barrier分散式屏障,最終的合併計算需要基於很多平行計算的子結果來進行,開始時,/queue_barrier節點已經預設存在,並且將結點資料內容賦值為數字n來代表Barrier值,之後,所有客戶端都會到/queue_barrier節點下建立一個臨時節點,例如/queue_barrier/host1。

  建立完節點後,按照如下步驟執行。

  1. 通過呼叫getData介面獲取/queue_barrier節點的資料內容,如10。

  2. 通過呼叫getChildren介面獲取/queue_barrier節點下的所有子節點,同時註冊對子節點變更的Watcher監聽。

  3. 統計子節點的個數。

  4. 如果子節點個數還不足10個,那麼需要等待。

  5. 接受到Wacher通知後,重複步驟3。

三、總結

  本篇部落格講解了如何利用Zookeeper的特性來完成典型應用,展示了Zookeeper在解決分散式問題上的強大作用,基於Zookeeper對分散式資料一致性的保證及其特性,開發人員能夠構建出自己的分散式系統。也謝謝各位園友的觀看~


相關文章