一.簡介
gh-ost基於 golang 語言,是 github 開源的一個 DDL 工具,是 GitHub's Online Schema Transmogrifier/Transfigurator/Transformer/Thingy 的縮寫,意思是 GitHub 的線上表定義轉換器。
1.1 原理
主要實現原理,首先建兩張表,一張_gho的影子表,gh-ost會將原表資料以及增量資料都應用到這個表,最後會將這個表和原表做次表名切換,另一張是_ghc表,這個表是存放changelog的資料,包括訊號標記,心跳等。其次,gh-ost會開兩個goroutine,一個用於拷貝原表資料,一個用於apply增量的binlog到_gho表,並且兩個goroutine的並行在跑的,也就是不用關心資料是先拷貝過去還是先apply binlog過去。因為這裡會對insert語句做調整,首先我們拷貝的insert into會改寫成insert ignore into,而binlog內insert into會改寫成replace into,這樣可以很好的支援兩個goroutine的並行。但這樣的調整能適用所有的DDL嗎?答案是否定的。最後,當原表資料全部拷貝完成後,gh-ost會進入到表交換階段,採用更加安全的原子交換。
1.2 過程
1. 檢查有沒有外來鍵和觸發器。
2. 檢查表的主鍵資訊。
3. 檢查是否主庫或從庫,是否開啟log_slave_updates,以及binlog資訊
4. 檢查gho和del結尾的臨時表是否存在
5. 建立ghc結尾的表,存資料遷移的資訊,以及binlog資訊等
---以上校驗階段
6. 初始化stream的連線,新增binlog的監聽
---以下遷移階段
7. 建立gho結尾的臨時表,執行DDL在gho結尾的臨時表上
8. 開啟事務,按照主鍵id把源表資料寫入到gho結尾的表上,再提交,以及binlog apply。
---以下cut-over階段
9. lock源表,rename 表:rename 源表 to 源_del表,gho表 to 源表。
10. 清理ghc表。
1.3 特性
1. 無觸發器:通過分析binlog日誌的形式來監聽表中的資料變更。
2. 輕量級:由於沒有使用觸發器,因此在操作的過程中對主庫的影響是最小的,也不用擔心併發和鎖。
3. 可暫停:所有的寫操作都是由gh-ost控制的,當限速的時候,gh-ost可以暫停向主庫寫入資料,建立一個內部的tracking表,以最小的系統開銷向這個表中寫入心跳事件。
4. 動態可控:gh-ost 可以通過 unix socket 檔案或者TCP埠(可配置)的方式來監聽請求,操作者可以在命令執行後更改相應的引數。
5. 可審計:使用程式介面可以獲取 gh-ost 的狀態,報告當前的進度,主要引數的配置以及當前伺服器 的標示等等。
6. 可測試:gh-ost內建支援測試功能,通過使用--test-on-replica引數來指定: 它可以在從庫上進行變更操作,在操作結束時gh-ost將會停止複製,交換表,反向交換表,保留2個表並保持同步,停止複製。可以在空閒時候測試和比較兩個表的資料情況。
1.4 github地址
https://github.com/github/gh-ost/
二.測試環境:
2.1 測試伺服器
主庫:110.119.120.231
從庫:110.119.120.230
2.2 安裝
cd /usr/local/src/
wget https://github.com/github/gh-ost/releases/download/v1.0.48/gh-ost-binary-linux20190214020851.tar.gz
tar xzvf gh-ost-binary-linux-20190214020851.tar.gz -C /usr/local/
ln -s /usr/local/gh-ost /usr/bin/gh-ost
2.3 建立使用者
create user ghost@'110.%' identified by 'ghost';
grant ALL PRIVILEGES on *.* to ghost@'110.%';
flush privileges;
2.4 命令引數
Usage of gh-ost: --aliyun-rds:是否在阿里雲資料庫上執行。true --allow-master-master:是否允許gh-ost執行在雙主複製架構中,一般與-assume-master-host引數一起使用 --allow-nullable-unique-key:允許gh-ost在資料遷移依賴的唯一鍵可以為NULL,預設為不允許為NULL的唯一鍵。如果資料遷移(migrate)依賴的唯一鍵允許NULL值,則可能造成資料不正確,請謹慎使用。 --allow-on-master:允許gh-ost直接執行在主庫上。預設gh-ost連線的從庫。此外,單例項上DDL,單個例項相當於主庫,需要開啟--allow-on-master引數和ROW模式。 --alter string:DDL語句 --approve-renamed-columns ALTER:如果你修改一個列的名字,gh-ost將會識別到並且需要提供重新命名列名的原因,預設情況下gh-ost是不繼續執行的,除非提供-approve-renamed-columns ALTER。 --ask-pass:MySQL密碼 --assume-master-host string:為gh-ost指定一個主庫,格式為”ip:port”或者”hostname:port”。在這主主架構裡比較有用,或則在gh-ost發現不到主的時候有用。 --assume-rbr:確認gh-ost連線的資料庫例項的binlog_format=ROW的情況下,可以指定-assume-rbr,這樣可以禁止從庫上執行stop slave,start slave,執行gh-ost使用者也不需要SUPER許可權。 --check-flag --chunk-size int:在每次迭代中處理的行數量(允許範圍:100-100000),預設值為1000。 --concurrent-rowcount:該引數如果為True(預設值),則進行row-copy之後,估算統計行數(使用explain select count(*)方式),並調整ETA時間,否則,gh-ost首先預估統計行數,然後開始row-copy。 --conf string:gh-ost的配置檔案路徑。 --critical-load string:一系列逗號分隔的status-name=values組成,當MySQL中status超過對應的values,gh-ost將會退出。-critical-load Threads_connected=20,Connections=1500,指的是當MySQL中的狀態值Threads_connected>20,Connections>1500的時候,gh-ost將會由於該資料庫嚴重負載而停止並退出。 Comma delimited status-name=threshold, same format as --max-load. When status exceeds threshold, app panics and quits --critical-load-hibernate-seconds int :負載達到critical-load時,gh-ost在指定的時間內進入休眠狀態。 它不會讀/寫任何來自任何伺服器的任何內容。 --critical-load-interval-millis int:當值為0時,當達到-critical-load,gh-ost立即退出。當值不為0時,當達到-critical-load,gh-ost會在-critical-load-interval-millis秒數後,再次進行檢查,再次檢查依舊達到-critical-load,gh-ost將會退出。 --cut-over string:選擇cut-over型別:atomic/two-step,atomic(預設)型別的cut-over是github的演算法,two-step採用的是facebook-OSC的演算法。 --cut-over-exponential-backoff --cut-over-lock-timeout-seconds int:gh-ost在cut-over階段最大的鎖等待時間,當鎖超時時,gh-ost的cut-over將重試。(預設值:3) --database string:資料庫名稱。 --debug:debug模式。 --default-retries int:各種操作在panick前重試次數。(預設為60) --discard-foreign-keys:該引數針對一個有外來鍵的表,在gh-ost建立ghost表時,並不會為ghost表建立外來鍵。該引數很適合用於刪除外來鍵,除此之外,請謹慎使用。 --dml-batch-size int:在單個事務中應用DML事件的批量大小(範圍1-100)(預設值為10) --exact-rowcount:準確統計表行數(使用select count(*)的方式),得到更準確的預估時間。 --execute:實際執行alter&migrate表,預設為noop,不執行,僅僅做測試並退出,如果想要ALTER TABLE語句真正落實到資料庫中去,需要明確指定-execute --exponential-backoff-max-interval int --force-named-cut-over:如果為true,則'unpostpone | cut-over'互動式命令必須命名遷移的表 --force-table-names string:在臨時表上使用的表名字首 --heartbeat-interval-millis int:gh-ost心跳頻率值,預設為500 --help --hooks-hint string:任意訊息通過GH_OST_HOOKS_HINT注入到鉤子 --hooks-path string:hook檔案存放目錄(預設為empty,即禁用hook)。hook會在這個目錄下尋找符合約定命名的hook檔案來執行。 --host string :MySQL IP/hostname --initially-drop-ghost-table:gh-ost操作之前,檢查並刪除已經存在的ghost表。該引數不建議使用,請手動處理原來存在的ghost表。預設不啟用該引數,gh-ost直接退出操作。 --initially-drop-old-table:gh-ost操作之前,檢查並刪除已經存在的舊錶。該引數不建議使用,請手動處理原來存在的ghost表。預設不啟用該引數,gh-ost直接退出操作。 --initially-drop-socket-file:gh-ost強制刪除已經存在的socket檔案。該引數不建議使用,可能會刪除一個正在執行的gh-ost程式,導致DDL失敗。 --master-password string :MySQL 主密碼 --master-user string:MysQL主賬號 --max-lag-millis int:主從複製最大延遲時間,當主從複製延遲時間超過該值後,gh-ost將採取節流(throttle)措施,預設值:1500s。 --max-load string:逗號分隔狀態名稱=閾值,如:'Threads_running=100,Threads_connected=500'. When status exceeds threshold, app throttles writes --migrate-on-replica:gh-ost的資料遷移(migrate)執行在從庫上,而不是主庫上。 --nice-ratio float:每次chunk時間段的休眠時間,範圍[0.0…100.0]。0:每個chunk時間段不休眠,即一個chunk接著一個chunk執行;1:每row-copy 1毫秒,則另外休眠1毫秒;0.7:每row-copy 10毫秒,則另外休眠7毫秒。 --ok-to-drop-table:gh-ost操作結束後,刪除舊錶,預設狀態是不刪除舊錶,會存在_tablename_del表。 --panic-flag-file string:當這個檔案被建立,gh-ost將會立即退出。 --password string :MySQL密碼 --port int :MySQL埠,最好用從庫 --postpone-cut-over-flag-file string:當這個檔案存在的時候,gh-ost的cut-over階段將會被推遲,資料仍然在複製,直到該檔案被刪除。 --quiet:靜默模式。 --replica-server-id uint : gh-ost的server_id --replication-lag-query string:棄用 --serve-socket-file string:gh-ost的socket檔案絕對路徑。 --serve-tcp-port int:gh-ost使用埠,預設為關閉埠。 --skip-foreign-key-checks:確定你的表上沒有外來鍵時,設定為'true',並且希望跳過gh-ost驗證的時間-skip-renamed-columns ALTER --skip-renamed-columns ALTER:如果你修改一個列的名字(如change column),gh-ost將會識別到並且需要提供重新命名列名的原因,預設情況下gh-ost是不繼續執行的。該引數告訴gh-ost跳該列的資料遷移,讓gh-ost把重新命名列作為無關緊要的列。該操作很危險,你會損失該列的所有值。 --stack:新增錯誤堆疊追蹤。 --switch-to-rbr:讓gh-ost自動將從庫的binlog_format轉換為ROW格式。 --table string:表名 --test-on-replica:在從庫上測試gh-ost,包括在從庫上資料遷移(migration),資料遷移完成後stop slave,原表和ghost表立刻交換而後立刻交換回來。繼續保持stop slave,使你可以對比兩張表。 --test-on-replica-skip-replica-stop:當-test-on-replica執行時,該參數列示該過程中不用stop slave。 --throttle-additional-flag-file string:當該檔案被建立後,gh-ost操作立即停止。該引數可以用在多個gh-ost同時操作的時候,建立一個檔案,讓所有的gh-ost操作停止,或者刪除這個檔案,讓所有的gh-ost操作恢復。 --throttle-control-replicas string:列出所有需要被檢查主從複製延遲的從庫。 --throttle-flag-file string:當該檔案被建立後,gh-ost操作立即停止。該引數適合控制單個gh-ost操作。-throttle-additional-flag-file string適合控制多個gh-ost操作。 --throttle-http string --throttle-query string:節流查詢。每秒鐘執行一次。當返回值=0時不需要節流,當返回值>0時,需要執行節流操作。該查詢會在資料遷移(migrated)伺服器上操作,所以請確保該查詢是輕量級的。 --timestamp-old-table:在舊錶名中使用時間戳。 這會使舊錶名稱具有唯一且無衝突的交叉遷移 --tungsten:告訴gh-ost你正在執行的是一個tungsten-replication拓撲結構。 --user string :MYSQL使用者 --verbose --version
三. 操作模式
模式一 連上從庫,在主庫上修改
這是gh-ost 預設的工作模式,它會檢視從庫情況,找到叢集的主庫並且連線上去。修改操作的具體步驟是:
1、在主庫上讀寫行資料;
2、在從庫上讀取二進位制日誌事件,將變更應用到主庫上;
3、在從庫上檢視錶格式、欄位、主鍵、總行數等;
4、在從庫上讀取 gh-ost 內部事件日誌(比如心跳);
5、在主庫上完成表切換。
如果你的主庫的日誌格式是 SBR,工具也可以正常工作。但從庫就必須配成啟用二進位制日誌(log_bin, log_slave_updates)並且設定 binlog_format=ROW ( gh-ost 是讀取從庫的二進位制檔案)。
使用示例:
# gh-ost --initially-drop-old-table --initially-drop-ghost-table --user="ghost" --password="ghost" --host=110.119.120.230 --port=3306 --database="test" --table="t1" --verbose --alter="ADD COLUMN y1 varchar(10),add column y2 int not null default 0 comment 'test' " --assume-rbr --execute
引數含義:
--initially-drop-old-table:gh-ost操作之前,檢查並刪除已經存在的舊錶。
--initially-drop-ghost-table:gh-ost操作之前,檢查並刪除已經存在的ghost表。
--verbose:執行過程輸出日誌
--assume-rbr:確認gh-ost連線的資料庫例項binlog_format=ROW的情況下,可以指定-assume-rbr,這樣可以避免從庫上執行stop slave,start slave,執行gh-ost的使用者也不需要SUPER許可權。
模式二 直接在主庫上修改
如果沒有從庫,或者不想在從庫上操作,那直接用主庫也是可以的。gh-ost 就會在主庫上直接做所有的操作。仍然可以在上面檢視主從複製延遲。
1)主庫必須產生 Row 格式的二進位制日誌
2)啟動 gh-ost 時必須用--allow-on-master 選項來開啟這種模式
# gh-ost --initially-drop-old-table --initially-drop-ghost-table --user="ghost" --password="ghost" --host="110.119.120.231" --port=3306 --database="test" --table="t2" --verbose --alter="add column test_field varchar(256) default '';" --exact-rowcount --serve-socket-file=/tmp/gh-ost.t2.sock --panic-flag-file=/tmp/ghost.panic.t2.flag --postpone-cut-over-flag-file=/tmp/ghost.postpone.t2.flag --allow-on-master --execute
引數含義:
--exact-rowcount:準確統計表行數(使用select count(*)的方式),得到更準確的預估時間。
--serve-socket-file:gh-ost的socket檔案絕對路徑。如:--serve-socket-file=/tmp/gh-ost.t1.sock 建立socket檔案進行監聽,通過介面進行引數調整,當執行操作的過程中發現負載、延遲上升了,不得 不終止操作,重新配置引數,如 chunk-size,然後重新執行操作命令,可以通過scoket介面進行動態 調整。
#暫停
echo throttle | socat - /tmp/gh-ost.t1.sock
#恢復
echo no-throttle | socat - /tmp/gh-ost.t1.sock
修改限速引數:
echo chunk-size=1500 | socat - /tmp/gh-ost.t1.sock
echo max-lag-millis=2000 | socat - /tmp/gh-ost.t1.sock
echo max-load=Thread_running=30 | socat - /tmp/gh-ost.t1.sock
--panic-flag-file:這個檔案被建立,會立即終止正在執行的gh-ost,臨時檔案清理需要手動進行。
--postpone-cut-over-flag-file:當這個檔案存在的時候,gh-ost的cut-over階段將會被推遲,資料仍 然在複製,但並不會切換表,直到該檔案被刪除。
--allow-on-master:允許gh-ost直接執行在主庫上。
模式三 在從庫上修改和測試
這種模式會在從庫上做修改,所有操作都是在從庫上做的,不會對主庫產生任何影響。在操作過程中, gh-ost 也會不時地暫停,以便從庫的資料可以保持最新。
--test-on-replica 表明操作只是為了測試目的。在進行最終的切換操作之前,複製會被停止。原始表和臨時表會相互切換,再切換回來,最終相當於原始表沒被動過。主從複製暫停的狀態下,可以檢查和對比這兩張表中的資料(若不想stop slave,可新增引數--test-on-replica-skip-replica-stop)。
# gh-ost --initially-drop-old-table --initially-drop-ghost-table --user="ghost" --password="ghost" --host=110.119.120.230 --port=3306 --database="test" --table="t3" --verbose --alter="ADD COLUMN abc1 varchar(10),add column abc2 int not null default 0 comment 'test' " --test-on-replica --assume-rbr --execute
rds限制:
1. 使用者沒有 Super 許可權,因此使用過程中要加上--assume-rbr,gh-ost 會認為 binlog 本身就是 row 模式,不會再去修改。阿里雲RDS上的binlog 預設也是 row 模式,所以不存在問題。
2. 其它許可權,主要是REPLICATION SLAVE,REPLICATION CLIENT可以拉取 binlog ,也可以獲得。
3、無法連線到備庫拉取binlog。備庫通常對使用者來說是透明的,所以gh-ost需要直接連線到主庫上 去,這可能會增大對主庫的負載。使用的時候需要增加--allow-on-master,--assume-master-host。 官方推薦的方式也是連線到其中一個備庫,因為會有一些壓力較大的SELECT操作,放在備庫是最好的。
4、阿里雲資料庫上執行,需要增加一個引數--aliyun-rds。 目前使用者使用的話,記得加上以下幾個引數: --allow-on-master --assume-rbr --assume-master-host --aliyun-rds
四.gh-ost與pt-osc對比
4.1 pt-osc的簡單介紹
pt-osc之工作流程
1、檢查更改表是否有主鍵或唯一索引,是否有觸發器
2、檢查修改表的表結構,建立一個臨時表,在新表上執行ALTER TABLE語句
3、在源表上建立三個觸發器分別對於INSERT UPDATE DELETE操作
4、從源表拷貝資料到臨時表,在拷貝過程中,對源表的更新操作會寫入到新建表中
5、將臨時表和源表rename(需要後設資料修改鎖,需要短時間鎖表)
6、刪除源表和觸發器,完成表結構的修改。
pt-osc之工具限制
1、源表必須有主鍵或唯一索引,如果沒有工具將停止工作
2、如果線上的複製環境過濾器操作過於複雜,工具將無法工作
3、如果開啟複製延遲檢查,但主從延遲時,工具將暫停資料拷貝工作
4、如果開啟主伺服器負載檢查,但主伺服器負載較高時,工具將暫停操作
5、當表使用外來鍵時,如果未使用--alter-foreign-keys-method引數,工具將無法執行
6、只支援Innodb儲存引擎表,且要求伺服器上有該表1倍以上的空閒空間。
那麼gh-ost對比pt-osc具體有哪些優勢呢?下面先簡單介紹下它的兩個最核心的特性。
4.2 Triggerless
在gh-ost出現之前第三方MySQL DDL工具均採用觸發器的方式進行實現,包括percona的pt-osc,Facebook的OSC等等。而gh-ost採用的機制和他們完全不同:它通過MySQL binlog來同步資料,gh-ost本身註冊為一個fake slave,可以從叢集中的master或者slave上拉取binlog,並實時解析,將變更表的所有DML操作都重新apply到影子表上面。因此對於釋出期間變更表上發生的DML操作,可以完全避免由於觸發器而產生的效能開銷,以及鎖的爭搶。
除此之外,一般我們選擇目標釋出機器通常會選擇叢集中slave節點,而slave一般不會承載業務,這樣binlog解析的開銷也不會落在提供業務的master上面,而僅僅是一次非同步的DML語句重放。
4.3 Dynamically controllable
另一個最重要的特性是動態調控,這是此前其他第三方開源工具所不具備的。
之前通過pt-osc釋出時,命令執行後引數就沒法修改,除非停止重來。假設釋出進行到90%,突然由於其他各種原因導致伺服器負載上升,為不影響業務,只能選擇將釋出停掉,等效能恢復再重來。
通過pt-osc釋出的表都是很大的表,耗時較長,所以遇到這類場景很尷尬。因此釋出中引數如果可動態調控將變得非常重要。gh-ost另外實現了一個socket server,我們可以在釋出過程中,通過socket和釋出程式進行實時互動,它可以支援實時的暫停,恢復,以及很多引數的動態調整,來適應外界變化。
五.參考文獻
1.gh-ost原理
https://www.cnblogs.com/mysql-dba/p/9901589.html
2.技術分享 | gh-ost 線上 ddl 變更工具
https://zhuanlan.zhihu.com/p/83770402
3.乾貨 | 攜程資料庫釋出系統演進之路
https://blog.csdn.net/ctrip_tech/article/details/108395676
4.MySQL線上DDL gh-ost 使用說明