可靠的分散式KV儲存產品-ETCD-初見

ML李嘉圖發表於2022-06-04

原文網址 : https://www.cnblogs.com/zwtblog/p/16342984.html

分散式

Paxos

官網：https://paxos.com/

Paxos演算法是萊斯利·蘭伯特於1990年提出的一種基於訊息傳遞的一致性演算法。

Raft（Understandable Distributed Consensus）

官網：https://raft.github.io/

論文：https://raft.github.io/raft.pdf

演算法演示網址：http://thesecretlivesofdata.com/raft/

Raft是一種共識演算法，旨在替代Paxos。

它通過邏輯分離比Paxos更容易理解，但它也被正式證明是安全的，並提供了一些額外的功能。

Raft提供了一種在計算系統叢集中分佈狀態機的通用方法，確保叢集中的每個節點都同意一系列相同的狀態轉換。

問題分解

問題分解是將 “複製集中節點一致性" 這個複雜的問題劃分為數個可以被獨立解釋、理解、解決的子問題。

在raft，子問題包括，leader election， log replication，safety，membership changes。

狀態簡化

對演算法做出一些限制，減少需要考慮的狀態數，使得演算法更加清晰。

raft會先選舉出leader，leader完全負責replicated log的管理。

leader負責接受所有客戶端更新請求，然後複製到follower節點，並在“安全”的時候執行這些請求。

名詞介紹

Raft將系統中的角色分為領導者（Leader）、跟從者（Follower）、候選人（Candidate）以及term（ Raft演算法將時間分為一個個的任期）。

Raft要求系統在任意時刻最多隻有一個Leader，正常工作期間只有Leader和Followers。

Raft演算法角色狀態轉換如下：

Leader Election

Raft 使用 heartbeat 觸發 Leader 選舉。

當伺服器啟動時，初始化為Follower。Leader向所有Followers週期性傳送heartbeat。

如果Follower在選舉超時時間內沒有收到Leader的heartbeat，就會等待一段隨機的時間後發起一次Leader選舉。

Follower將其當前term加一然後轉換為Candidate。它首先給自己投票並且給叢集中的其他伺服器傳送RequestVote RPC 。

結果有以下三種情況：

收到majority的投票（含自己的一票），則贏得選舉，成為leader。

贏得了選舉之後，新的leader會立刻給所有節點發訊息，廣而告之，避免其餘節點觸發新的選舉。

投票者的視角，投票者如何決定是否給一個選舉請求投票呢，有以下約束：
- 在任一任期內，單個節點最多隻能投一票。
- 候選人知道的資訊不能比自己的少（log replication和safety）。
- first-come-first-served 先來先得。

被告知別人已當選，那麼自行切換到follower。
一段時間內沒有收到majority投票，則保持candidate狀態，重新發出選舉。

平票 split vote 的情況。超時後重新發起選舉。

如果出現平票的情況，那麼就延長了系統不可用的時間（沒有leader是不能處理客戶端寫請求的），
因此raft引入了randomized election timeouts來儘量避免平票情況。

同時，leader-based 共識演算法中，節點的數目都是奇數個，儘量保證majority的出現。

Log Replication

有了leader，系統應該進入對外工作期了。

客戶端的一切請求來傳送到leader，leader來排程這些併發請求的順序，並且保證leader與followers狀態的一致性。

將這些請求以及執行順序告知followers。leader和followers以相同的順序來執行這些請求，保證狀態一致。

為什麼是日誌？

如何保證所有節點 get the same inputs in the same order，使用replicated log是一個很不錯的注意。

log具有持久化、保序的特點，是大多數分散式系統的基石。

Replicated state machines

共識演算法的實現一般是基於複製狀態機（Replicated state machines），
何為複製狀態機：相同的初識狀態 + 相同的輸入 = 相同的結束狀態。

因此，可以這麼說，在raft中，leader將客戶端請求（command）封裝到一個個log entry，將這些log entries複製到所有follower節點，然後大家按相同順序應用log entry中的command，則狀態肯定是一致的。

下圖展示了這種log-based replicated state machine

請求完整流程

當系統（leader）收到一個來自客戶端的寫請求，到返回給客戶端，整個過程從leader的視角來看會經歷以下步驟：

leader append log entry
leader issue AppendEntries RPC in parallel
leader wait for majority response
leader apply entry to state machine
leader reply to client
leader notify follower apply log

leader只需要大多數（majority）節點的回覆即可，這樣只要超過一半節點處於工作狀態則系統就是可用的。

logs由順序編號的log entry組成，每個log entry除了包含command，還包含產生該log entry時的leader term。

raft演算法為了保證高可用，並不是強一致性，而是最終一致性。

leader會不斷嘗試給follower發log entries，直到所有節點的log entries都相同。

在上面的流程中，leader只需要日誌被複制到大多數節點即可向客戶端返回，一旦向客戶端返回成功訊息，那麼系統就必須保證log（其實是log所包含的command）在任何異常的情況下都不會發生回滾。

commit（committed）是指日誌被複制到了大多數節點後日志的狀態
apply(applied) 是節點將日誌應用到狀態機，真正影響到節點狀態。

…………

etcd

文件：https://etcd.io/docs/v3.5/

etcd 是 CoreOS 團隊發起的開源專案，目標是構建一個高可用的分散式鍵值(key-value)資料庫。

etcd 內部採用raft協議作為一致性演算法，etcd 基於 Go 語言實現。

總體架構

Blotddb：BoltDB是相當出名的純Go實現的KV讀寫引擎。

Wal： WAL(Write Ahead Log)預寫日誌，是資料庫系統中常見的一種手段，用於保證資料操作的原子性和永續性。

Snapshot：磁碟快照 (Snapshot)是針對整個磁碟卷冊進行快速的檔案系統備份。

在 etcd 架構中，有一個關鍵的概念叫做 quorum，quorum 的定義是（n+1）/2，也就是說超過叢集中半數節點組成的一個團體。

3個節點容忍1個故障，5個節點容忍2個故障。

允許部分節點故障之後繼續提供服務，怎麼解決分散式一致性？

分散式一致性演算法由 Raft 一致性演算法完成。

任意兩個 quorum 的成員之間一定會有一個交集（公共成員），也就是說只要有任意一個 quorum 存活，其中一定存在某一個節點（公共成員），它包含著叢集中所有的被確認提交的資料。
基於這一原理，Raft 一致性演算法設計了一套資料同步機制，在 Leader 任期切換後能夠重新同步上一個quorum 被提交的所有資料，從而保證整個叢集狀態向前推進的過程中保持資料的一致。

怎樣獲取資料呢？

通過 etcd 提供的客戶端去訪問叢集的資料。
直接通過 http 的方式（類似 curl 命令）直接訪問 etcd。
在 etcd 內部，把 etcd 的資料儲存理解為一個有序的 map，它儲存著 key-value 資料。
etcd 支援訂閱資料的變更，提供 watch 機制，通過 watch 實時地拿到 etcd 中資料的增量更新，從而實現與etcd 中的資料同步等業務邏輯。

API 介紹

API文件： https://github.com/coreos/etcd/blob/6acb3d67fbe131b3b2d5d010e00ec80182be4628/Documentation

配置項：https://github.com/coreos/etcd/blob/master/Documentation/op-guide/configuration.md

大致分為五組：

第一組是 Put 與 Delete。類似Map的使用。
第二組是查詢操作：
- 第一種是指定單個 key 的查詢。
- 第二種是指定的一個 key 的範圍。
第三組是資料訂閱：
- Watch 支援指定單個 key。
- 指定一個 key 的字首，在實際應用場景中的通常會採用第二種形勢；
第四組事務操作。etcd 提供了一個簡單的事務支援，類似於程式碼中的 if else 語句，etcd 確保整個操作的原子性。
第五組是 Leases 介面。

分散式系統理論之租約機制

在分散式系統中，往往會有一箇中心伺服器節點。
該節點負責儲存、維護系統中的後設資料。
如果系統中的各種操作都依賴於中心伺服器上的後設資料，那麼中心伺服器很容易成為效能瓶頸及存在單點故障。
而通過租約機制，可以將中心伺服器的“權力”下放給其他機器，就可以減輕中心伺服器的壓力。

資料版本機制

要正確使用 etcd 的 API，必須要知道內部對應資料版本號的基本原理。

term：代表的是整個叢集 Leader 的任期。

revision：代表的是全域性資料的版本。

在叢集中跨 Leader 任期之間，revision 都會保持全域性單調遞增。
正是 revision 的這一特性，使得叢集中任意一次的修改都對應著一個唯一的 revision，
因此我們可以通過 revision 來支援資料的 MVCC，也可以支援資料的 Watch。

MVVC (Multi-Version Concurrency Control) 

MVCC是為了實現事務的隔離性，通過版本號，避免同一資料在不同事務間的競爭，
可以把它當成基於多版本號的一種樂觀鎖。
當然，這種樂觀鎖只在事務級別提交讀和可重複讀有效。
MVCC最大的好處，相信也是耳熟能詳：讀不加鎖，讀寫不衝突。
在讀多寫少的OLTP應用中，讀寫不衝突是非常重要的，極大的增加了系統的併發效能。

對於每一個 KeyValue 資料節點，etcd 中都記錄了三個版本：

第一個版本叫做 create_revision，是 KeyValue 在建立時對應的 revision。
第二個叫做 mod_revision，是其資料被操作的時候對應的 revision。
第三個 version 就是一個計數器，代表了 KeyValue 被修改了多少次。

資料訂閱

使用 etcd 多版本號來實現併發控制以及資料訂閱（Watch）。

支援對同一個 Key 發起多次資料修改，每次資料修改都對應一個版本號。
在查詢資料的時候如果不指定版本號，etcd 會返回 Key 對應的最新版本.
etcd 支援指定一個版本號來查詢歷史資料。

資料儲存

etcd 中所有的資料都儲存在一個 b+tree 中（灰色），該 b+tree 儲存在磁碟中，並通過 mmap 的方式對映到記憶體用來支援快速的訪問。

灰色的 b+tree 中維護著 revision 到 value 的對映關係，支援通過 revision 查詢對應的資料。

revision 是單調遞增的，通過 watch 來訂閱指定 revision 之後的資料時，僅訂閱該 b+ tree 的資料變化即可。

在 etcd 內部還維護著另外一個 btree（藍色），它管理著 key 到 revision 的對映關係。當客戶端使用 key 查詢資料時，首先需要經過藍色的 btree 將 key 轉化為對應的 revision，再通過灰色的 btree 查詢到對應的資料。

問題

etcd 將每一次修改都記錄下來會導致資料持續增長。

這會帶來記憶體及磁碟的空間消耗，同時也會影響 b+tree 的查詢效率。

為了解決這一問題，在 etcd 中會執行一個週期性的 Compaction 的機制來清理歷史資料，將一段時間之前的同一個 Key 的多個歷史版本資料清理掉。

最終的結果是灰色的 b+tree 依舊保持單調遞增，但可能會出現一些空洞。

mini-transactions

etcd 的事務機制比較簡單，基本可以理解為一段 if-else 程式。

在 etcd 內部會保證整個事務操作的原子性。

使用場景

後設資料儲存
Server Discovery （Naming Service）
Distributed Coordination: leader election
Distributed Coordination 分散式系統併發控制

參考

Paxos：

https://baike.baidu.com/item/Paxos 演算法/10688635

Raft：

etcd：

分散式kv儲存系統之Etcd叢集
2021-01-30
分散式
編寫你的第一個 Java 版 Raft 分散式 KV 儲存
2019-01-12
JavaRaft分散式
分散式儲存系統可靠性如何估算？
2019-03-01
分散式
構建安全可靠的分散式儲存Oracle網路
2022-03-08
分散式Oracle
使用開源技術構建有贊分散式 KV 儲存服務
2018-08-20
分散式
分散式儲存系統可靠性：系統量化估算
2021-08-02
分散式
分散式-鎖-初見
2021-08-25
分散式
實現分散式 kv—1 Standalone KV
2021-11-27
分散式
HDFS分散式儲存
2018-10-15
分散式
Redis 分散式儲存
2019-08-06
Redis分散式
分散式儲存產業方陣：2022年分散式儲存發展白皮書（附下載）
2022-07-19
分散式產業
一個全新的 kv 儲存引擎 — LotusDB
2022-03-21
儲存引擎
分散式儲存ceph 物件儲存配置zone同步
2018-07-05
分散式物件
DAOS 分散式非同步物件儲存｜儲存模型
2021-04-01
分散式非同步物件模型
分散式儲存轉崗記
2021-10-08
分散式
Gartner：浪潮儲存進入分散式儲存前三
2021-10-25
分散式
哪些企業需要分散式式儲存？
2021-09-15
分散式
雲端儲存產品介紹
2018-09-20
分散式儲存glusterfs詳解【轉】
2024-11-13
分散式
GlusterFS企業分散式儲存【轉】
2024-11-13
分散式
什麼是HDFS 分散式儲存
2022-03-09
分散式
python如何分散式儲存檔案？
2021-09-11
Python分散式
分散式儲存的六大優點
2018-08-29
分散式
CEPH分散式儲存搭建(物件、塊、檔案三大儲存)
2020-12-16
分散式物件
一種KV儲存的GC最佳化實踐
2023-05-12
GC
分散式儲存中的資料分佈策略
2018-11-22
分散式
杉巖分散式儲存解決方案
2020-09-21
分散式
004.MinIO-DirectPV分散式儲存部署
2024-08-24
分散式
GlusterFS分散式儲存學習筆記
2018-04-03
分散式筆記
Ceph分散式儲存技術解讀
2022-05-05
分散式
Bayou複製分散式儲存系統
2021-10-11
分散式
嵌入式中常見的儲存器總結（一）儲存器分類
2020-10-18
海量圖片儲存，杉巖分散式物件儲存輕鬆應對
2019-12-18
分散式物件
Nebula Graph 的 KV 儲存分離原理和效能測評
2022-03-01
200 行程式碼實現基於 Paxos 的 KV 儲存
2022-05-20
行程
docker筆記39-ceph分散式儲存的搭建
2018-10-29
Docker筆記分散式
基於MFS高可用的分散式儲存架構
2019-08-25
分散式架構
HDFS分散式儲存的意義及技術解析
2020-09-23
分散式