mysql mha 主從自動切換 高可用

zping發表於2016-03-16

mha(Master High Availability)目前在MySQL多伺服器(超過二臺),高可用方面是一個相對成熟的解決方案。

 

一,什麼是mha,有什麼特性

1. 主伺服器的自動監控和故障轉移

MHA監控複製架構的主伺服器,一旦檢測到主伺服器故障,就會自動進行故障轉移。即使有些從伺服器沒有收到最新的relay log,MHA自動從最新的從伺服器上識別差異的relay log並把這些日誌應用到其他從伺服器上,因此所有的從伺服器保持一致性了。MHA通常在幾秒內完成故障轉移,9-12秒可以檢測出主伺服器故障,7-10秒內關閉故障的主伺服器以避免腦裂,幾秒中內應用差異的relay log到新的主伺服器上,整個過程可以在10-30s內完成。還可以設定優先順序指定其中的一臺slave作為master的候選人。由於MHA在slaves之間修復一致性,因此可以將任何slave變成新的master,而不會發生一致性的問題,從而導致複製失敗。

2. 互動式主伺服器故障轉移

可以只使用MHA的故障轉移,而不用於監控主伺服器,當主伺服器故障時,人工呼叫MHA來進行故障故障。

3. 非互動式的主故障轉移

不監控主伺服器,但自動實現故障轉移。這種特徵適用於已經使用其他軟體來監控主伺服器狀態,比如heartbeat來檢測主伺服器故障和虛擬IP地址接管,可以使用MHA來實現故障轉移和slave伺服器晉級為master伺服器。

4. 線上切換主從伺服器

在許多情況下,需要將現有的主伺服器遷移到另外一臺伺服器上。比如主伺服器硬體故障,RAID控制卡需要重建,將主伺服器移到效能更好的伺服器上等等。維護主伺服器引起效能下降,導致停機時間至少無法寫入資料。另外,阻塞或殺掉當前執行的會話會導致主主之間資料不一致的問題發生。MHA提供快速切換和優雅的阻塞寫入,這個切換過程只需要0.5-2s的時間,這段時間內資料是無法寫入的。在很多情況下,0.5-2s的阻塞寫入是可以接受的。因此切換主伺服器不需要計劃分配維護時間視窗(呵呵,不需要你在夜黑風高時通宵達旦完成切換主伺服器的任務)。

5.MHA由兩部分組成:MHA Manager(管理節點)和MHA Node(資料節點)

要搭建MHA,要求一個複製叢集中必須最少有三臺資料庫伺服器,一主二從,即一臺充當master,一臺充當備用master,另外一臺充當從庫,管理節點可以和master在一臺機器上。所以如果你只有二臺機器的話,heartbeat,keepalive等都是不錯的選擇了。

6.MHA比較靈活,可以寫指令碼,來進行故障轉移,或者主從切換等。

7.mha出現故障後,配置檔案會被修改掉,這一點,讓我覺得很搞笑,如果故障轉移需要重新修改配置檔案,重新啟動masterha_manager服務.

二,伺服器說明

  1. 192.168.10.103 masters   //主  
  2. 192.168.10.209 slave1    //從  
  3. 192.168.10.219 slave2    //從(主備)  
  4. 192.168.10.220 manage    //管理節點  

一主二從,一個管理節點,將上面的內容寫入到每臺/etc/hosts當中

三,伺服器間,無密碼ssh登入

  1. # ssh-keygen -t rsa  
  2. # ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.10.103  
  3. # ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.10.209  
  4. # ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.10.219  
  5. # ssh-copy-id -i /root/.ssh/id_rsa.pub root@192.168.10.220  

上面有5個命令,如果在103機器上,103本身不需要執行ssh-copy-id。copy完了以後,ssh測試一下,機器間切換是不是需要密碼了。

四,安裝mha

1,下載mha

https://code.google.com/p/mysql-master-ha/downloads/list

2,所有節點都要安裝

  1. # yum install -y perl-DBD-MySQL  
  2. # rpm -ivh mha4mysql-node-0.54-0.el6.noarch.rpm  

3,管理節點

  1. # yum install -y perl-DBD-MySQL perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager  
  2. # rpm -ivh mha4mysql-manager-0.55-0.el6.noarch.rpm  

注意:manager和node節點的版本可以不一樣

五,配置mysql replication

請參考:mysql replication 主從(master-slave)同步

要符合mha的配置,根這篇文章有點不同。

1,主從的配置都要有

  1. binlog-do-db=test  
  2. replicate-do-db=test  

一般情況下,主伺服器需要包含binlog-do-db=test,從伺服器需要包含replicate-do-db=test,這樣主從就可以同步了。但是隻是這樣配置的話,會報以下錯誤

All log-bin enabled servers must have same binlog filtering rules (same binlog-do-db and binlog-ignore-db). Check SHOW MASTER STATUS output and set my.cnf correctly.

在摸索這一塊配置的時候,浪費很多時間,我一直以為,上面英文的意思是說,主從同步的資料庫要一樣,其實不是,而是配置檔案中,配置資料庫這一塊要一樣。

2,從伺服器,要加上relay_log_purge=0,不加的話,會報出warning,relay_log_purge=0 is not set on slave

六,corosync pacemaker mysql replication配置

請參考:corosync pacemaker mysql replication 實現高可用

配置corosync pacemaker的目的,其實就是為得到一個虛擬IP,連主和主備中的一個,我可以通過虛擬IP連線,這樣做的好處就是,如果主down機了,我通過虛擬IP可以連線主備,如果主修改好了,那麼虛擬IP可以連線到主,而不需要去修改程式碼。

七,配置mha manage

1,新增管理賬號,每臺機器都執行以下操作

  1. grant all privileges on *.* TO mha@'192.168.%' IDENTIFIED BY 'test';  
  2. flush privileges;  

2,配置/etc/mha/app1.cnf,只在管理端做,manage這臺機器

  1. mkdir /etc/mha  
  2. mkdir -p /var/log/mha/app1  
  3.   
  4. [root@manage mysql]# cat /etc/mha/app1.cnf  
  5. [server default]  
  6. manager_log=/var/log/mha/app1/manager.log  
  7. manager_workdir=/var/log/mha/app1.log  
  8. master_binlog_dir=/var/lib/mysql  
  9. user=mha  
  10. password=test  
  11. ping_interval=2  
  12. repl_password=test  
  13. repl_user=test  
  14. ssh_user=root  
  15.   
  16. [server1]  
  17. hostname=192.168.10.103  
  18. port=3306  
  19.   
  20. [server2]  
  21. candidate_master=1  
  22. check_repl_delay=0  
  23. hostname=192.168.10.219  
  24. port=3306  
  25.   
  26. [server3]  
  27. hostname=192.168.10.209  
  28. port=3306  

在server default中的配置,是三臺機器共同的配置,也可以放到具體的server中進行定製

八,檢查mha manage是不是配置成功

1,檢查ssh登入

  1. # masterha_check_ssh --conf=/etc/mha/app1.cnf  

如果看到,All SSH connection tests passed successfully,就說明ssh配置成功了

2,檢查mysql replication是否配置成功

  1. # masterha_check_repl --conf=/etc/mha/app1.cnf  

如果,出現以下內容,說明配置成功了。

mha 檢驗 mysql replication

mha 檢驗 mysql replication

3,管理端常用命令

  1. masterha_check_ssh       檢查MHA的SSH配置狀況  
  2. masterha_check_repl      檢查MySQL複製狀況  
  3. masterha_manger          啟動MHA  
  4. masterha_check_status    檢測當前MHA執行狀態  
  5. masterha_master_monitor  檢測master是否當機  
  6. masterha_master_switch   控制故障轉移(自動或者手動)  
  7. masterha_conf_host       新增或刪除配置的server資訊  

九,在管理端,啟動監控

  1. [root@manage mha]#  nohup masterha_manager --conf=/etc/mha/app1.cnf > /tmp/mha_manager.log  2>&1 &    //開啟MHA
  2. [root@manage mha]# masterha_check_status --conf=/etc/mha/app1.cnf  //檢視狀態   app1 (pid:13675) is running(0:PING_OK), master:192.168.10.103   //說明已經啟用
  3. [root@manage mha]# masterha_stop --conf=/etc/mha/app1.cnf  //關閉監控  

到這兒,mha我們就配置好了。

十,說一下,我的測試過程

1,mysql -u test -p -h 192.168.10.130,通過虛擬IP登入

2,插入資料,檢視一下主103有沒有該資料,以及二個從伺服器,是不是同步了資料。

3,在主103上,執行crm node standby,會帶來幾種結果。

在220機器上,/etc/mha/app1.cnf

[server1]
hostname=192.168.10.103
port=3306

這段配置消失了。

在219機器上,show master status;是有資料的,變成主機了

在209機器上,show slave status\G;中 Master_Host: 192.168.10.219,變成219了。

4,在103上面,執行# crm node online,這個時候,103既不是主,也不是從,standby後mysqld程式被關閉,所以在這兒要啟動mysqld,然後在將103加入到219中。

  1. mysql> CHANGE MASTER TO MASTER_HOST='192.168.10.219',  
  2. MASTER_USER='test', MASTER_PASSWORD='test',  
  3. MASTER_LOG_FILE='mysql-bin.000048',  
  4. MASTER_LOG_POS=107;  

5,線上切換主從

  1. [root@manage mysql]# masterha_master_switch --conf=/etc/mha/app1.cnf --master_state=alive --new_master_host=192.168.10.103 --new_master_port=3306 --orig_master_is_new_slave --running_updates_limit=10000  
  2. Wed Apr 29 04:14:55 2015 - [info] MHA::MasterRotate version 0.55.  
  3. Wed Apr 29 04:14:55 2015 - [info] Starting online master switch..  
  4. Wed Apr 29 04:14:55 2015 - [info]  
  5. Wed Apr 29 04:14:55 2015 - [info] * Phase 1: Configuration Check Phase..  
  6. Wed Apr 29 04:14:55 2015 - [info]  
  7. Wed Apr 29 04:14:55 2015 - [warning] Global configuration file /etc/masterha_default.cnf not found. Skipping.  
  8. Wed Apr 29 04:14:55 2015 - [info] Reading application default configurations from /etc/mha/app1.cnf..  
  9. Wed Apr 29 04:14:55 2015 - [info] Reading server configurations from /etc/mha/app1.cnf..  
  10. Wed Apr 29 04:14:55 2015 - [info] Current Alive Master: 192.168.10.219(192.168.10.219:3306)  
  11. Wed Apr 29 04:14:55 2015 - [info] Alive Slaves:  
  12. Wed Apr 29 04:14:55 2015 - [info] 192.168.10.209(192.168.10.209:3306) Version=5.1.73-log (oldest major version between slaves) log-bin:enabled  
  13. Wed Apr 29 04:14:55 2015 - [info] Replicating from 192.168.10.219(192.168.10.219:3306)  
  14.   
  15. It is better to execute FLUSH NO_WRITE_TO_BINLOG TABLES on the master before switching. Is it ok to execute on 192.168.10.219(192.168.10.219:3306)? (YES/no): yes  
  16. Wed Apr 29 04:15:10 2015 - [info] Executing FLUSH NO_WRITE_TO_BINLOG TABLES. This may take long time..  
  17. Wed Apr 29 04:15:10 2015 - [info] ok.  
  18. Wed Apr 29 04:15:10 2015 - [info] Checking MHA is not monitoring or doing failover  
  19.   
  20. 。。。。。。。。。。。。。省略了。。。。。。。。。。。。。。。  

這樣就切換到最原始的狀態了。

相關文章