必須理解的分散式系統中雷同的叢集技術及原理

HitTwice發表於2018-07-13

原文網址 : http://blog.itpub.net/31473948/viewspace-2157855/

寫在前面

在當今資訊爆炸的時代，單臺計算機已經無法負載日益增長的業務發展，雖然也有效能強大的超級計算機，但是這種高階機不僅費用高昂，也不靈活，一般的企業是負擔不起的，而且也損失不起，那麼將一群廉價的普通計算機組合起來，讓它們協同工作就像一臺超級計算機一樣地對外提供服務，就成了順其自然的設想，但是這又增加了軟體的複雜度，要求開發的軟體需要具備橫向擴充套件能力，比如：Kafka、Elasticsearch、Zookeeper等就屬於這一類軟體，它們天生都是"分散式的"，即可以通過新增機器節點來共同地分攤資料儲存和負載壓力。

為什麼需要叢集?

分佈在不同區域的計算機，彼此之間通過網路建立通訊，相互協作作為一個整體對外提供服務，這就是叢集，如果我們開發的系統具備這樣的能力，那麼理論上就具備無限橫向擴容的能力，系統的吞吐量就會隨著機器數增加而增長，那麼未來當系統出現高負載的時候，就可以很好地應對這種情況。

為什麼CAP不能同時滿足?

通過上面分析，我們知道實現叢集，其實就是採用多臺計算機來共同承擔和負載系統壓力，那麼就涉及到多臺計算機需要參與一起處理資料，為了保證可用性，一般都會在每臺計算機上備份一份資料，這樣只要有一個節點保持同步狀態，那麼資料就不會丟失，比如kafka分割槽多副本、Elasticsearch的副本分片，由於同一資料塊及其副本位於不用的機器，隨著時間的推移，再加上不可靠的網路通訊，所有機器上的資料必然會不完全一致，這個時候假如發生一種極端情況，所有的機器當機了，又如何保證資料不丟失呢(其實只有兩種方法)?

1、保證可用性：選擇第一臺恢復正常服務的機器(不一定擁有全部資料)作為可信的資料來源，快速恢復叢集，即停機時間優於同步。

2、保證資料一致性：等待第一臺擁有全部資料的機器恢復正常，再恢復叢集，即同步優於停機時間，比如禁用kafka的unclean leader選舉機制就是這種策略。

其實當大多數機器不可用時，就需要在可用性和一致性之間進行妥協了，所以另一個更符合分散式系統的Base理論又被創造出來了。

如何解決分散式儲存問題?

當由多臺計算機組成的叢集對外提供服務時，其實就是對外提供讀、寫的能力。

資料塊技術(data block)

為了將資料合理、均勻地寫到各個機器上，提高叢集寫能力;為了將讀請求負載均衡到不同的節點，提高叢集的讀能力;為了解耦資料儲存和物理節點，提高分散式讀寫並行處理的能力，聰明的工程師引入了一個邏輯資料儲存單位，統稱為資料塊，比如Kafka的分割槽(partion)、Elasticsearch的分片(shard)，這樣的虛擬化大大提高了叢集讀寫的靈活性。

備註：所以啊，名字不重要，知其所以然最重要。

協調節點(coordination node)

實際上當叢集作為一個整體處理資料時，可能每一個節點都會收到讀寫請求，但是資料又是分散在不同的節點上，所以就需要每個節點都清楚地知道叢集中任意一個資料塊的位置，然後再將請求轉發到相應的節點，這就是“協調節點”的工作。比如：Elasticsearch的master節點管理叢集範圍內的所有變更，主分片管理資料塊範圍內的所有變更。

大多數投票機制(quorum)

百度百科：quorum，翻譯法定人數，指舉行會議、通過議案、進行選舉或組織某種專門機構時，法律所規定的必要人數，未達法定人數無效。

由於網路分割槽的存在，這個機制被廣泛地應用於分散式系統中，比如叢集節點之間選舉Master;資料塊之間選舉Header等;在分散式儲存中，也被稱為Quorum讀寫機制，即寫入的時候，保證大多數節點都寫入成功(一般的做法會選舉一個主資料塊(header)，保證它寫成功，然後再同步到冗餘的副本資料塊);讀取的時候保證讀取大多數節點的資料(一般的做法是由協調節點分發請求到不同的節點，然後將所有檢索到的資料進行全域性彙總排序後再返回);由於讀寫都是大多數，那麼中間肯定存在最新的重疊資料，這樣就能保證一定能讀到最新的資料。

從上面分析可以得出，只要大多數節點處於活躍可用狀態，那麼整個叢集的可用性就不會受到影響;只要大多資料塊處於活躍可用的狀態，那麼就能持續地提供讀寫服務;只要有一個資料塊完成了同步狀態，那麼資料就不會丟失;這其實就是通過一種冗餘機制來嘗試處理fail/recover模式的故障，通俗點講就是容忍單點故障，至少需要部署3個節點;容忍2點故障，至少需要部署5個節點，機器節點越多分割槽容忍性就越強，頓悟了吧，嘿嘿，所以保證叢集可用的前提就是有奇數個節點、奇數個資料塊保持活躍可用狀態，不然就無法選舉出master或header。

大多數投票機制運用起來也非常靈活，當分散式系統追求強一致性時，需要等待所有的資料快及其副本全部寫入成功才算完成一次寫操作，即寫全部(write all)，可以理解一種事務保證，要麼全部寫入，要麼一個都不寫入，比如：kafka從0.11.0.0 版本開始，當producer傳送訊息到多個topic partion時，就運用了這種機制，來保證訊息交付的exactly-once語義，是不是很帥，而且這種情況下，從任意一個節點都能讀到最新的資料，讀效能最高;當分散式系統追求最終一致性時，只需等待主資料塊(leader)寫入成功即可，再由主資料塊通過訊息可達的方式同步到副本資料塊。

為了能夠滿足不同場景下對資料可靠性和系統吞吐量的要求，最大化資料永續性和系統可用性，很多元件都提供了配置項，允許使用者定義這個大多數的法定數量，下面我們就來談談一些常用元件的配置：

Elasticsearch

由上圖可以看到，整個叢集由三個執行了Elasticsearch例項的節點組成，有兩個主分片，每個分片又有兩個副分片，總共有6個分片拷貝，Elasticsearch內部自動將相同的分片放到了不同的節點，非常合理和理想。當我們新建一個文件時：

1、客戶端向 Node 1 傳送新建文件的寫請求。

2、節點使用文件的 _id 確定文件屬於分片 0 。請求會被轉發到 Node 3，因為分片 0 的主分片目前被分配在 Node 3 上。

3、Node 3 在主分片上面執行請求。如果成功了，它將請求並行轉發到 Node 1 和 Node 2 的副本分片上。一旦所有的副本分片都報告成功, Node 3 將向協調節點報告成功，協調節點向客戶端報告成功。

這就是Elasticsearch處理寫請求的典型步驟順序，同時每種業務場景對資料可靠性的要求和系統效能也不一樣，所以Elasticsearch提供了Consistence配置項：

1、one：主分片處於活躍可用狀態就可以處理寫請求。系統吞吐量最高，但資料可能會丟失，對資料可靠性要求不是很高的場景非常適合，比如實時的時序資料處理(日誌)。

2、all：主分片和所有副本分片處於活躍可用狀態才允許處理寫請求。系統吞吐量最低，但資料不會丟失。處理關鍵的業務資料非常合適。

3、quorum：必須有大多數的分片拷貝處於活躍可用狀態才允許處理寫請求。平衡系統吞吐量和資料可靠性，一般業務系統都使用這個配置。

Kafka

當向Kafka 寫資料時，producers可以通過設定ack來自定義資料可靠性的級別：

0：不等待broker返回確認訊息。

1: leader儲存成功返回。

-1(all): 所有備份都儲存成功返回。

備註：預設情況下，為了保證分割槽的最大可用性，當acks=all時，只要ISR集合中的副本分割槽寫入成功，kafka就會返回訊息寫入成功。如果要真正地保證寫全部(write all)，那麼我們需要更改配置transaction.state.log.min.isr來指定topic最小的ISR集合大小，即設定ISR集合長度等於topic的分割槽數。

如果所有的節點都掛掉，還有Unclean leader選舉機制的保證，建議大家下去閱讀kafka《官方指南》設計部分，深入理解kafka是如何通過引入ISR集合來變通大多數投票機制，從而更好地保證訊息交付的不同語義。

什麼是叢集腦裂?

對於分散式系統，自動處理故障的關鍵就是能夠精準地知道節點的存活狀態(alive)。有時候，節點不可用，不一定就是其本身掛掉了，極有可能是暫時的網路故障;在這種情況下，如果馬上選舉一個master節點，那麼等到網路通訊恢復正常的時候，豈不是同時存在兩個master，這種現象被形象地稱為“叢集腦裂”，先留給大家下去思考吧。呵呵，明天要早起，碎覺了，大家晚安。

備註：設計一個正在高可用的分散式系統，需要考慮的故障情況往往會很複雜，大多陣列件都只是處理了fail/recover模式的故障，即容忍一部分節點不可用，然後等待恢復;並不能處理拜占庭故障(Byzantine)，即節點間的信任問題，也許區塊鏈可以解決吧，大家可以下去多多研究，然後我們一起討論，共同學習，一起進步。

寫在最後

分享了這麼多，請大家總結一下大多數投票機制的優點和缺點?歡迎評論區留言，哈哈，真的要睡覺了，晚安。

原文作者：無痴迷，不成功

原文連結：https://www.cnblogs.com/justmine/p/9275730.html

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31473948/viewspace-2157855/，如需轉載，請註明出處，否則將追究法律責任。

必須掌握的分散式檔案儲存系統—HDFS
2020-10-27
分散式
叢集、分散式和微服務的概念理解
2018-10-22
分散式微服務
分散式系統與叢集環境
2018-08-22
分散式
技術分享| 分散式系統中服務註冊發現元件的原理及比較
2022-09-20
分散式元件
MongoDB中的分散式叢集架構
2023-12-16
MongoDB分散式架構
使用微服務前必須要了解的“分散式系統的謬誤”
2023-01-12
微服務分散式
搞懂分散式技術5：Zookeeper的配置與叢集管理實戰
2019-11-19
分散式
我理解的分散式系統
2019-03-04
分散式
分散式、微服務、叢集，個人理解
2022-07-11
分散式微服務
分散式kv儲存系統之Etcd叢集
2021-01-30
分散式
Cassandra安裝及分散式叢集搭建
2018-08-31
分散式
Redis面試題及分散式叢集
2018-08-06
Redis面試題分散式
亞馬遜認為在分散式系統中必須避免使用回退
2021-11-11
亞馬遜分散式
軟體系統的架構演進以及叢集和分散式
2024-07-11
架構分散式
技術分享| 基於 Etcd 的分散式鎖實現原理及方案
2022-10-26
分散式
理解分散式系統中的快取架構(下)
2018-07-09
分散式快取架構
理解分散式系統中的快取架構(上)
2018-07-09
分散式快取架構
MinIO分散式叢集的擴充套件方案及實現
2021-04-23
分散式套件
分散式系統2：分散式系統中的時鐘
2024-10-13
分散式
搞懂分散式技術1：分散式系統的一些基本概念
2019-11-19
分散式
理解大型分散式網站你必須知道這些概念
2018-04-14
分散式網站
Linux系統中必須掌握的特殊字元!
2023-05-09
Linux字元
如何利用redis來進行分散式叢集系統的限流設計
2018-06-19
Redis分散式
ElasticSearch 分散式叢集
2021-03-01
Elasticsearch分散式
[技術思考]分散式儲存系統的雪崩效應
2019-05-30
分散式
分散式技術中不可或缺的分散式互斥方案
2024-01-10
分散式
不同體系分散式儲存技術的技術特性
2022-08-03
分散式
資料來源管理 | 分散式NoSQL系統，Cassandra叢集管理
2020-08-12
分散式SQL
elasticsearch(三)---分散式叢集
2018-08-21
Elasticsearch分散式
HA分散式叢集搭建
2018-04-10
分散式
HDFS分散式叢集搭建
2024-07-07
分散式
golang分散式與叢集
2021-12-22
Golang分散式
hadoop分散式叢集搭建
2021-03-04
Hadoop分散式
深入理解分散式系統中的快取架構(下)
2018-10-11
分散式快取架構
Oracle叢集技術 | 叢集的自啟動系列（一）
2019-01-07
Oracle
深入理解分散式系統
2024-07-21
分散式
Kafka叢集搭建及必知必會
2020-11-07
Kafka
分散式 PostgreSQL 叢集(Citus)，分散式表中的分佈列選擇最佳實踐
2022-03-21
分散式SQL

必須理解的分散式系統中雷同的叢集技術及原理

相關文章