架構設計｜基於 raft-listener 實現實時同步的主備叢集

NebulaGraph發表於2024-04-17

原文網址 : https://www.cnblogs.com/nebulagraph/p/18140715

架構Raft

背景以及需求

線上業務對資料庫可用性可靠性要求較高，要求需要有雙 AZ 的主備容災機制。
主備叢集要求資料和 schema 資訊實時同步，資料同步平均時延要求在 1s 之內，p99 要求在 2s 之內。
主備叢集資料要求一致
要求能夠在主叢集故障時高效自動主備倒換或者手動主備倒換，主備倒換期間丟失的資料可找回。

為什麼使用 Listener

Listener：這是一種特殊的 Raft 角色，並不參與投票，也不能用於多副本的資料一致性。

原本的 NebulaGraph 中的 Listener 是一個 Raft 監聽器，它的作用是將資料非同步寫入外部的 Elasticsearch 叢集，並在查詢時去查詢 ES 以實現全文索引的功能。

這裡我們需要的是 Listener 的監聽能力，用於快速同步資料到其他叢集，並且是非同步的執行，不影響主叢集的正常讀寫。

這裡我們需要定義兩個新的 Listener 型別：

Meta Listener：用於同步表結構以及其他後設資料資訊
Storage Listener：用於同步 storaged 服務的資料

這樣 storaged 服務和 metad 服務的 part leader 節點接受到寫請求時，除了同步一份資料給 follower 節點，也會同步一份給各自的 listener 節點。

備叢集如何接受資料？

現在我們面臨幾個問題：

兩個新增 Listener 在接收到 leader 同步的日誌後，應該如何再同步給備叢集？
我們需要匹配和解析不同的資料操作，例如新增點、刪除點、刪除邊、刪除帶索引的資料等等操作；
我們需要將解析到的不同操作的資料重新組裝成一個請求傳送給備叢集的 storaged 服務和 metad 服務；

透過走讀 nebula-storaged 的核心程式碼我們可以看到，無論是 metad 還是 storaged 的各種建立刪除表結構以及各種型別資料的插入，最後都會序列化成一個 wal 的 log 傳送給 follower 以及 listener 節點，最後儲存在 RocksDB 中。

因此，我們的 listener 節點需要具備從 log 日誌中解析並識別操作型別的能力，和封裝成原請求的能力，因為我們需要將操作同步給備叢集的 metad 以及 storaged 服務。

這裡涉及到一個問題，主叢集的 listener 需要如何感知備叢集？備叢集 metad 服務的資訊以及 storaged 服務的資訊？從架構設計上來看，兩個叢集之間應該有一個介面通道互相連線，但又不干涉，如果由 listener 節點直接傳送請求給備叢集的 nebula 程序，兩個叢集的邊界就不是很明顯了。所以這裡我們再引入一個備叢集的服務 listener 服務，它用於接收來自主叢集的 listener 服務的請求，並將請求轉發給自己叢集的 metad 以及 storaged 服務。

這樣做的好處。兩邊叢集的服務模組是對稱的，方便我們後面快速地做主備切換。

Listener 節點的管理和可靠性

為了保證雙 AZ 環境的可靠性，很顯然 Listener 節點也是需要多節點多活的，在 nebula 核心原始碼中是有對於 listener 的管理邏輯，但是比較簡單，我們還需要設計一個 ListenerManager 實現以下幾點能力：

listener 節點註冊以及刪除命令
listener 節點動態負載均衡（儘量每個 space 各個 part 分佈的 listener 要均勻）
listener 故障切換

節點註冊管理以及負載均衡都比較簡單好設計，比較重要的一點是故障切換應該怎麼做？

listener 故障切換的設計

listener 節點故障切換的需求可以拆分為以下幾個部分：

listener 同步 wal 日誌資料時週期性記錄同步的進度（commitId && appendLogId）；
ListenerManager 感知到 listener 故障後，觸發動態負載均衡機制，將故障 listener 的 part 分配給其他在執行的 listener；
分配到新 part 的 listener 們獲取原先故障 listener 記錄的同步進度，並以該進度為起始開始同步資料；

至於 listener 同步 wal 日誌資料時週期性記錄同步的進度應該記錄到哪裡？可以是儲存到 metad 服務中，也可以儲存到 storaged 服務對應的 part 中。

nebula 主備切換設計

在聊主備切換之前，我們還需要考慮一件事，那就是雙 AZ 環境中，應該只能有主叢集是可讀可寫的，而其他備叢集應該是隻讀不能寫。這樣是為了保證兩邊資料的最終一致性，備叢集的寫入只能是由主叢集的 listener 請求來寫入的，而不能被 graphd 服務的請求寫入。

所以我們需要對叢集狀態增加一種“只讀模式”，在這種只讀模式下，表明當前叢集狀態是處於備叢集的狀態，拒絕來自 graphd 服務的寫操作。同樣的，備叢集的 listener 節點處在只讀狀態時，也只能接收來自主叢集的請求並轉發給備叢集的程序，拒絕來自備叢集的 wal 日誌同步。

主備倒換髮生時，需要有以下幾個動作：

主叢集的每個 listener 記錄自己所負責的 part 的同步進度（commitId && appendLogId）;
備叢集的 nebula 服務轉換為可寫;
備叢集的 listener 節點轉換為可寫，並且開始接收來自自己叢集的 metad 和 storaged 程序的 wal 日誌;
主叢集的 listener 以及各個服務轉換為只讀狀態，開始接收來自新的主叢集的資料同步請求;

這幾個動作細分下來，最主要的內容就是狀態轉換以及上下文資訊儲存和同步，原主叢集需要儲存自己主備切換前的上文資訊（比如同步進度），新的主叢集需要載入自己的資料同步起始進度（從當前最新的 commitLog 開始）

主備切換過程中的資料丟失問題

很明顯，在上面的設計中，當主備切換髮生時，會有一段時間的“雙主”的階段，在這個階段內，原主叢集的剩餘日誌已經不能再同步給備叢集了，這就是會被丟失的資料。如何恢復這些被丟失的資料，可能的方案有很多，因為原主叢集的同步進度是有記錄的，有哪些資料還沒同步完也是可以查詢到的，所以可以手動或者自動去單獨地同步那一段缺失資料。

當然這種方案也會引入新的問題，這段丟失地資料同步給主叢集后，主叢集會再次同步一遍回現在的備叢集，一段 wal 資料的兩次重複操作，不知道為引起什麼其他的問題。

所以關於主備切換資料丟失的問題，我們還沒有很好的處理方案，感興趣的夥伴歡迎在評論區討論。

感謝你的閱讀 (///▽///)

對圖資料庫 NebulaGraph 感興趣？歡迎前往 GitHub ✨ 檢視原始碼：https://github.com/vesoft-inc/nebula；

想和其他圖技術愛好者一起交流心得？和 NebulaGraph 星雲小姐姐交個朋友再進個交流群；

構建MHA實現MySQL高可用叢集架構
2019-07-29
MySql架構
架構師必備：巧用Canal實現非同步、解耦的架構
2021-11-27
架構非同步解耦
基於 Nginx 的大型網際網路叢集架構與實戰方案
2024-10-10
Nginx架構
MySQL叢集架構：MHA+MySQL-PROXY+LVS實現MySQL叢集架構高可用/高效能
2019-07-19
MySql架構
基於 ZooKeeper 實現爬蟲叢集的監控
2021-09-09
爬蟲
基於零信任架構的IDaaS實現
2021-07-16
架構
Kafka 叢集如何實現資料同步？
2023-11-16
Kafka
基於Dokcer搭建Redis叢集（主從叢集）
2020-12-10
Redis
基於etcd的選主功能實現的主備節點管理
2020-11-20
mysql通過kafka實現資料實時同步（三）——es叢集配置
2020-11-13
MySqlKafka
滴滴 Elasticsearch 多叢集架構實踐
2019-01-10
Elasticsearch架構
達夢資料庫主備實時叢集搭建和維護
2022-10-11
資料庫
基於Jenkins + Argo 實現多叢集的持續交付
2024-03-20
JenkinsGo
基於Vue3+TS的Monorepo前端專案架構設計與實現
2023-02-20
VueMono前端架構
基於 Docker 的 MongoDB 主從叢集
2018-08-07
DockerMongoDB
基於istio實現單叢集地域故障轉移
2024-04-10
PB級資料實時查詢，滴滴Elasticsearch多叢集架構實踐
2022-12-06
Elasticsearch架構
IoT 邊緣叢集基於 Kubernetes Events 的告警通知實現
2023-02-16
架構設計 | 非同步處理流程，多種實現模式詳解
2020-06-04
架構非同步模式
使用 NineData 實現備份集的實時查詢
2023-01-17
架構師必備：Redis的幾種叢集方案
2022-04-30
架構Redis
MySQL一主一從架構的實現
2018-08-21
MySql架構
ES系列(二)：基於多播的叢集發現實現原理解析
2021-04-18
保障IDC安全：分散式HIDS叢集架構設計
2019-01-21
分散式架構
dubbo原始碼解析-叢集容錯架構設計
2019-03-04
原始碼架構
探索Redis設計與實現13：Redis叢集機制及一個Redis架構演進例項
2019-11-17
Redis架構
Uber實時資料基礎設施：分散式計算架構
2022-11-09
分散式架構
基於SpringCloud的Microservices架構實戰案例-架構拆解
2018-04-06
SpringGCCloudROS架構
部署otter實現mysql主備資料同步（上）
2021-05-19
MySql
部署otter實現mysql主備資料同步（下）
2021-05-20
MySql
Redis主從同步叢集搭建
2020-12-21
Redis主從同步
基於 Flink CDC 的實時同步系統
2023-03-17
基於Hadoop的大資料平臺實施——整體架構設計
2018-05-07
Hadoop大資料架構
基於 WPF 模組化架構下的本地化設計實踐
2019-08-13
架構
基於SpringCloud的微服務架構設計
2018-07-19
SpringGCCloud微服務架構
基於 K8s 容器叢集的容災架構與方案
2024-03-13
K8S架構
Oracle叢集時間同步
2018-06-29
Oracle
基於SPA架構的GraphQL工程實踐
2019-02-25
架構