腦裂是什麼？Zookeeper是如何解決的？

1點25發表於2019-07-23

原文網址 : https://www.cnblogs.com/nicerblog/p/11232531.html

什麼是腦裂

腦裂(split-brain)就是“大腦分裂”，也就是本來一個“大腦”被拆分了兩個或多個“大腦”，我們都知道，如果一個人有多個大腦，並且相互獨立的話，那麼會導致人體“手舞足蹈”，“不聽使喚”。

腦裂通常會出現在叢集環境中，比如ElasticSearch、Zookeeper叢集，而這些叢集環境有一個統一的特點，就是它們有一個大腦，比如ElasticSearch叢集中有Master節點，Zookeeper叢集中有Leader節點。

本篇文章著重來給大家講一下Zookeeper中的腦裂問題，以及是如果解決腦裂問題的。

Zookeeper叢集中的腦裂場景

對於一個叢集，想要提高這個叢集的可用性，通常會採用多機房部署，比如現在有一個由6臺zkServer所組成的一個叢集，部署在了兩個機房：

正常情況下，此叢集只會有一個Leader，那麼如果機房之間的網路斷了之後，兩個機房內的zkServer還是可以相互通訊的，如果不考慮過半機制，那麼就會出現每個機房內部都將選出一個Leader。

這就相當於原本一個叢集，被分成了兩個叢集，出現了兩個“大腦”，這就是腦裂。

對於這種情況，我們也可以看出來，原本應該是統一的一個叢集對外提供服務的，現在變成了兩個叢集同時對外提供服務，如果過了一會，斷了的網路突然聯通了，那麼此時就會出現問題了，兩個叢集剛剛都對外提供服務了，資料該怎麼合併，資料衝突怎麼解決等等問題。

剛剛在說明腦裂場景時，有一個前提條件就是沒有考慮過半機制，所以實際上Zookeeper叢集中是不會出現腦裂問題的，而不會出現的原因就跟過半機制有關。

過半機制

在領導者選舉的過程中，如果某臺zkServer獲得了超過半數的選票，則此zkServer就可以成為Leader了。

過半機制的原始碼實現其實非常簡單：

public class QuorumMaj implements QuorumVerifier {
    private static final Logger LOG = LoggerFactory.getLogger(QuorumMaj.class);
    
    int half;
    
    // n表示叢集中zkServer的個數（準確的說是參與者的個數，參與者不包括觀察者節點）
    public QuorumMaj(int n){
        this.half = n/2;
    }

    // 驗證是否符合過半機制
    public boolean containsQuorum(Set<Long> set){
        // half是在構造方法裡賦值的
        // set.size()表示某臺zkServer獲得的票數
        return (set.size() > half);
    }
    
}

大家仔細看一下上面方法中的註釋，核心程式碼就是下面兩行：

this.half = n/2;
return (set.size() > half);

舉個簡單的例子：
如果現在叢集中有5臺zkServer，那麼half=5/2=2，那麼也就是說，領導者選舉的過程中至少要有三臺zkServer投了同一個zkServer，才會符合過半機制，才能選出來一個Leader。

那麼有一個問題我們想一下，選舉的過程中為什麼一定要有一個過半機制驗證？
因為這樣不需要等待所有zkServer都投了同一個zkServer就可以選舉出來一個Leader了，這樣比較快，所以叫快速領導者選舉演算法唄。

那麼再來想一個問題，過半機制中為什麼是大於，而不是大於等於呢？

這就是更腦裂問題有關係了，比如回到上文出現腦裂問題的場景：

當機房中間的網路斷掉之後，機房1內的三臺伺服器會進行領導者選舉，但是此時過半機制的條件是set.size() > 3，也就是說至少要4臺zkServer才能選出來一個Leader，所以對於機房1來說它不能選出一個Leader，同樣機房2也不能選出一個Leader，這種情況下整個叢集當機房間的網路斷掉後，整個叢集將沒有Leader。

而如果過半機制的條件是set.size() >= 3，那麼機房1和機房2都會選出一個Leader，這樣就出現了腦裂。所以我們就知道了，為什麼過半機制中是大於，而不是大於等於。就是為了防止腦裂。

如果假設我們現在只有5臺機器，也部署在兩個機房：

此時過半機制的條件是set.size() > 2，也就是至少要3臺伺服器才能選出一個Leader，此時機房件的網路斷開了，對於機房1來說是沒有影響的，Leader依然還是Leader，對於機房2來說是選不出來Leader的，此時整個叢集中只有一個Leader。

所以，我們可以總結得出，有了過半機制，對於一個Zookeeper叢集，要麼沒有Leader，要沒只有1個Leader，這樣就避免了腦裂問題。

有痛點才有創新，一個技術肯定都是為了解決某個痛點才出現的。

請幫忙轉發一下，如果想第一時間學習更多的精彩的內容，請關注微信公眾號：1點25

Zookeeper是什麼&怎麼用
2020-07-11
1 什麼是Zookeeper 能幹什麼
2022-07-14
ZooKeeper 05 - ZooKeeper 叢集的腦裂問題（Split Brain）
2021-12-06
AI
什麼是死鎖？如何解決死鎖？
2020-08-11
什麼是 IP 衝突以及如何解決？
2022-05-06
什麼是Docker？它是如何解決業務難題的？
2018-11-12
Docker
Python程式閃退的原因是什麼?如何解決?
2023-12-08
Python
Netty(三) 什麼是 TCP 拆、粘包？如何解決？
2019-01-19
NettyTCP
[Zookeeper-01]什麼是zookeeper？& Linux / Windows Zookeeper安裝和部署(單點)
2020-11-13
LinuxWindows
代理IP速度變慢的原因是什麼，要如何解決？
2024-03-15
什麼是大報表？如何解決大報表的問題？
2020-07-21
ip段/數字,如192.168.0.1/24是什麼意思?
2018-06-02
[譯] 什麼是快取 false sharing 以及如何解決(Golang 示例)
2019-06-15
快取FalseGolang
什麼是IPv6天窗問題，如何解決？
2022-05-07
一文搞懂│什麼是跨域？如何解決跨域？
2022-07-15
跨域
你們用的是什麼電腦，都什麼配置
2020-06-04
面試官：Zookeeper是什麼，它有什麼特性與使用場景？
2024-04-08
面試
伺服器負載過高的原因是什麼?如何解決？
2023-02-21
伺服器負載
什麼是決策智慧？
2022-02-21
電腦綠屏是什麼原因電腦出現綠屏怎麼解決
2022-10-21
電腦程式設計是什麼？
2021-01-24
程式設計
linux 基礎知識什麼是殭屍程序？有什麼影響？如何解決？
2024-09-20
Linux
JSONP的原理是什麼？解決什麼問題？
2024-11-23
JSON
什麼是過時閉包及如何解決過時閉包的坑
2019-11-04
線上教育程式開發中遇到的難點是什麼？如何解決？
2021-04-12
中科三方：DNS未響應是什麼原因？如何解決？
2021-07-21
DNS
【知識分享】伺服器當機是什麼意思如何解決
2023-02-11
伺服器
電腦卡頓是記憶體還是硬碟原因電腦卡頓是什麼原因造成的
2022-10-21
記憶體硬碟
NLA是什麼？NLA的原理是什麼？
2022-05-23
Java是什麼_Java是做什麼的？
2021-07-02
Java
電腦32位和64位的區別是什麼怎麼看電腦是64位還是32位
2022-04-22
說說你工作中遇到過比較難的技術問題是什麼？是如何解決的？
2024-11-21
電腦網路卡是什麼？如何看網路卡是千兆還是百兆？
2018-11-29
什麼是商業頭腦風暴？
2022-02-26
電腦滑鼠卡頓不流暢是什麼原因電腦滑鼠卡頓怎麼解決
2022-10-06
電腦自動關機是什麼原因電腦自動關機怎麼解決
2021-11-11
什麼是Tornado?它的特點是什麼?
2020-11-25
什麼是報表的多樣性資料來源問題？如何解決？
2020-07-23

腦裂是什麼？Zookeeper是如何解決的？

什麼是腦裂

Zookeeper叢集中的腦裂場景

過半機制

相關文章