使用etcd選舉sdk實踐master/slave故障轉移

部落格猿馬甲哥發表於2022-04-19

原文網址 : https://www.cnblogs.com/JulianHuang/p/16166069.html

AST

本次將記錄[利用etcd選主sdk實踐master/slave高可用]，並利用etcdctl原生指令碼驗證選主sdk的工作原理。

master/slave高可用叢集

本文目標

在異地多機房部署節點，slave作為備用例項啟動，但不接受業務流量，監測到master當機，slave節點自動提升為master並接管業務流量。

基本思路

各節點向etcd註冊帶租約的節點資訊，並各自維持心跳保活，選主sdk根據目前存活的、最早建立的節點資訊鍵值對 來判斷leader，並通過watch機制通知業務程式碼leader變更。

講道理，每個節點只需要知道兩個資訊就能各司其職

誰是leader > 當前節點是什麼角色=> 當前節點該做什麼事情
感知叢集leader變更的能力 ===》當前節點現在要不要改變行為

除了官方etcd客戶端go.etcd.io/etcd/client/v3，還依賴go.etcd.io/etcd/client/v3/concurrency package：實現了基於etcd的分散式鎖、屏障、選舉

選主過程	實質	api
競選前先查詢leader瞭解現場	查詢當前存活的，最早建立的kv值	*concurrency.Election.Leader()
初始化時，各節點向etcd阻塞式競選	各節點向etcd註冊帶租約的鍵值對	*concurrency.Election.compaign
建立master/slave叢集，還能及時收到變更通知	通過chan傳遞最新的leader value	*concurrency.Election.Observe()

重點解讀

1.初始化etcd go客戶端

注意：etcd客戶端和服務端是通過grpc來通訊，目前新版本的etcd客戶端預設使用非阻塞式連線，也就是說v3.New函式僅表示從指定配置建立etcd客戶端。

為快速確定etcd選舉的可用性，本實踐使用阻塞式建立客戶端：

cli, err := v3.New(v3.Config{
		Endpoints:   addr,
		DialTimeout: time.Second * 5,
		DialOptions: []grpc.DialOption{grpc.WithBlock()},
	})
	if err != nil {
		log.WithField("instance", Id).Errorln(err)
		return nil, err
	}

2. 競選

使用阻塞式命令compaign競選之前，應先查詢當前leader

// 將id：ip：port作為競選時寫入etcd的value
func (c *Client) Election(id string, notify chan<- bool) error {
	//競選前先試圖去了解情況
	ctx, cancel := context.WithTimeout(context.Background(), time.Second*3)
	defer cancel()
	resp, err := c.election.Leader(ctx)
	if err != nil {
		if err != concurrency.ErrElectionNoLeader {
			return err
		}
	} else { // 已經有leader了
		c.Leader = string(resp.Kvs[0].Value)
		notify <- (c.Leader == id)
	}

	if err = c.election.Campaign(context.TODO(), id); err != nil {
		log.WithError(err).WithField("id", id).Error("Campaign error")
		return err
	} else {
		log.Infoln("Campaign success!!!")
		c.Leader = id
		notify <- true
	}
	c.election.Key()
	return nil
}

參選：將持續重新整理的leaseID作為key，將特定的客戶端標記(這裡使用ip:port)作為value，寫到etcd.

當選：當前存活的、最早建立的key是leader ，也就是說master/slave故障轉移並不是隨機的。

3. watch leader變更

golang使用通道完成goroutine通訊，

本例宣告通道： notify = make(chan bool, 1)

一石二鳥：標記叢集leader是否發生變化；通道內傳值表示當前節點是否是leader

func (c *Client) Watchloop(id string, notify chan<- bool) error {
	ch := c.election.Observe(context.TODO()) // 觀察leader變更
	tick := time.NewTicker(c.askTime)

	defer tick.Stop()
	for {
		var leader string

		select {
		case _ = <-c.sessionCh:
			log.Warning("Recv session event")
			return fmt.Errorf("session Done") // 一次續約不穩，立馬退出程式
		case e := <-ch:
			log.WithField("event", e).Info("watch leader event")
			leader = string(e.Kvs[0].Value)
			ctx, cancel := context.WithTimeout(context.Background(), time.Second*3)
			defer cancel()
			resp, err := c.election.Leader(ctx)
			if err != nil {
				if err != concurrency.ErrElectionNoLeader {
					return err
				} else { // 目前沒leader，開始競選了
					if err = c.election.Campaign(context.TODO(), id); err != nil {
						log.WithError(err).WithField("id", id).Error("Campaign error")
						return err
					} else { // 競選成功
						leader = id
					}
				}
			} else {
				leader = string(resp.Kvs[0].Value)
			}
		}
		if leader != c.Leader {
			log.WithField("before", c.Leader).WithField("after", leader == id).Info("leader changed")
			notify <- (leader == id)
		}
		c.Leader = leader
	}
}

c.election.Observe(context.TODO()) 返回最新的leader資訊，配合select case控制結構能夠及時拿到leader變更資訊。

如題：通過Leader欄位和chan <- bool，掌控了整個選舉叢集的狀態，可根據這兩個資訊去完成業務上的master/slave故障轉移。

使用etcdctl確定leader

election.Leader的原始碼證明了[當前存活的，最早建立的kv為leader]

// Leader returns the leader value for the current election.
func (e *Election) Leader(ctx context.Context) (*v3.GetResponse, error) {
	client := e.session.Client()
	resp, err := client.Get(ctx, e.keyPrefix, v3.WithFirstCreate()...)
	if err != nil {
		return nil, err
	} else if len(resp.Kvs) == 0 {
		// no leader currently elected
		return nil, ErrElectionNoLeader
	}
	return resp, nil
}

等價於./etcdctl get /merc --prefix --sort-by=CREATE --order=ASCEND --limit=1

--sort-by ：以x標準(建立時間)檢索資料
-- order ：以升降序對已檢出的資料排序
-- limit：從已檢出的資料中取x條資料顯示

dolphinscheduler 實現master當機故障轉移能力原始碼分析
2024-03-10
AST原始碼
Elasticsearch-04-master選舉
2021-07-14
Elasticsearch
故障案例：主從同步報錯Fatal error: The slave I/O thread stops because master and slave have equal MySQL server
2019-02-04
主從同步ErrorthreadASTMySqlServer
深入淺出etcd系列 – 心跳和選舉
2018-12-17
Setup MariaDB Master/Slave Replication for Docker MariaDB
2021-12-13
ASTDocker
The slave I/O thread stops because master and slave have equal MySQL server UUID
2019-07-17
threadASTMySqlServerUI
Mysqldump實現mysql的master-slave主從複製
2020-10-07
MySqlAST
etcd 框架實踐【Java 版】
2024-07-15
框架Java
etcd 框架實踐【Go 版】
2024-07-01
框架Go
Mysql 5.6 Master和Slave 主備切換
2018-04-10
MySqlAST
中移鏈Java-SDK實戰使用
2022-07-08
Java
4.2.13 主備庫實現自動故障轉移
2020-04-27
PostgreSQL中利用驅動程式實現故障轉移
2024-07-03
SQL
使用ProxySQL實現MySQL Group Replication的故障轉移、讀寫分離（一）
2020-08-01
MySql
Innobackupex實現mysql線上搭建master-slave主從複製
2021-08-03
MySqlAST
Mysql MHA部署-05故障轉移
2020-03-15
MySql
Oracle Dataguard故障轉移(failover)操作
2020-07-28
OracleAI
資料庫讀寫分離Master-Slave
2019-07-02
資料庫AST
基於istio實現單叢集地域故障轉移
2024-04-10
docker搭建redis叢集和Sentinel，實現故障轉移
2021-03-07
DockerRedis
實屬無奈！Redis 作者被迫修改 master-slave 架構的描述
2018-09-14
RedisAST架構
redis健康檢查與故障轉移
2018-06-03
Redis
Sentinel哨兵模式解決故障轉移
2020-10-11
模式
5 切換和故障轉移操作
2020-03-27
SQLServer 2012 AG強制故障轉移
2023-02-24
SQLServer
Mysql Master-slave複製簡單配置記錄
2018-06-19
MySqlAST
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 3
2019-08-26
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 6
2019-08-27
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 5
2019-08-27
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 4
2019-08-26
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 2
2019-08-25
模式
[AlwaysOn] AlwaysOn可用性組的故障轉移和故障轉移模式[中英文對照] 1
2019-08-24
模式
MySQL報錯Slave: received end packet from server, apparent master shutdown
2018-11-16
MySqlServerAPPAST
分散式資料中的坑（一）Master-Slave架構
2019-03-16
分散式AST架構
mysql slave 跟進 master 的關鍵狀態指標
2019-06-18
MySqlAST指標
避免故障逃逸最佳實踐
2024-12-10
Elixir 分散式 Application 故障轉移和接管
2019-02-16
分散式APP
【Redis】Redis Cluster-叢集故障轉移
2022-06-19
Redis