老闆今天問我為什麼公司的資料庫這麼爛,我是這樣回答的......

騰訊雲加社群發表於2018-09-14

歡迎大家前往騰訊雲+社群,獲取更多騰訊海量技術實踐乾貨哦~

本文由騰訊雲資料庫團隊 發表於雲+社群專欄

作者介紹:簡懷兵,騰訊雲資料庫高階工程師,負責騰訊雲CDB核心及基礎設施建設;先後供職於Thomson Reuters和YY等公司,PTimeDB作者,曾獲一項發明專利;從事MySQL核心開發工作8年,具有豐富的優化經驗;在分散式儲存等領域有較豐富經驗。

MYSQL資料庫適用場景廣泛,相較於Oracle、DB2價效比更高,Web網站、日誌系統、資料倉儲等場景都有MYSQL用武之地,但是也存在對於事務性支援不太好(MySQL 5.5版本開始預設引擎才是InnoDB事務型)、存在多個分支、讀寫效率瓶頸等問題。

所以如何用好MYSQL變得至關重要,一方面需要通過MYSQL優化找出系統讀寫瓶頸,提高資料庫效能;另一方面需要合理涉及資料結構、調整引數,以提高使用者操作響應;同時還有儘可能節省系統資源,以便系統可以提供更大負荷的服務。本文將為大家介紹騰訊雲團隊是如何對Mysql進行核心級優化的思路和經驗。

早期的CDB主要基於開源的Oracle MySQL分支,側重於優化運維和運營的OSS系統。在騰訊雲,因為使用者數的不斷增加,對CDB for MySQL提出越來越高的要求,騰訊雲CDB團隊針對使用者的需求和業界發展的技術趨勢,對CDB for MySQL分支進行深度的定製優化。優化重點圍繞核心效能、核心功能和外圍OSS系統三個維度展開,具體的做法如下:

一.核心效能的優化

由於騰訊雲上的DB基本都需要跨園區災備的特性,因此CDB for MySQL的優化主要針對主從DB部署在跨園區網路拓撲的前提下,重點去解決真實部署環境下的效能難題。經過分析和調研,我們將優化的思路歸納為:“消除冗餘I/O、縮短I/O路徑和避免大鎖競爭”。以下是核心效能的部分案例:

1.主備DB間的複製優化

img

問題分析

如上圖所示,在原生MySQL的複製架構中,Master側通過Dump執行緒不斷髮送Binlog事件給Slave的I/O執行緒,Slave的I/O執行緒在接受到Binlog事件後,有兩個主要的動作:

  • 寫入到Relay Log中,這個過程會和Slave SQL執行緒爭搶保護Relay Log的鎖。
  • 更新複製後設資料(包含Master的位置等資訊)。

優化方法

經過分析,我們的優化策略是:

  • Slave I/O執行緒和Slave SQL執行緒是典型的單寫單讀生產者-消費者模型,是可以做到無鎖設計的;因此實現思路就是Slave I/O執行緒在每次寫完資料後,原子更新Relay Log的長度資訊,Slave SQL執行緒讀取Relay Log的時以長度資訊為邊界。這樣就將原本競爭激烈的Relay Log鎖化解為無鎖;
  • 由於Binlog事件中的GTID(Global Transaction Identifier)和DB事務是一一對應的關係,所以Relay Log中的資料本身已經包含了所需要的複製後設資料,所以我們可以不寫Master info檔案,消除了冗餘的檔案I/O;
  • 於DB都是以事務為更新粒度的,因為在Relay Log檔案I/O上,我們通過合併離散小I/O為事務粒度的大I/O等手段,使磁碟I/O得以大幅提升。

優化效果

img

如上圖所示,經過優化:左圖35.79%的鎖競爭(futex)已經被完全消除;同壓測壓力下,56.15%的檔案I/O開銷被優化到19.16%,Slave I/O執行緒被優化為預期的I/O密集型執行緒。

2.主庫事務執行緒和Dump執行緒間的優化

img

問題分析

如上圖所示,在原生MySQL中多個事務提交執行緒TrxN和多個Dump執行緒之間會同時競爭Binlog檔案資源的保護鎖,多個事務提交執行緒對Binlog執行寫入,多個Dump執行緒從Binlog檔案讀取資料併傳送給Slave。所有的執行緒之間是序列執行的!

優化方法

經過分析,我們的優化策略是:

  • 將讀寫分離開來,多個寫入的執行緒還是在鎖保護下序列執行,每一個寫入執行緒寫入完成後更新當前Binlog的長度資訊,多個Dump執行緒以Binlog檔案的長度資訊為讀取邊界,多個Dump執行緒之間並行執行。以這種方式來讓複製拓撲中的Dump執行緒傳送得更快!

效果

img

經過測試,優化後的核心,不僅提升了事務提交執行緒的效能,在Dump執行緒較多的情況下,對主從複製效能有較大提升。

二.主備庫互動流程優化

img

問題分析

如上圖所示,在原生MySQL中主備庫之間的資料傳送和ACK迴應是簡單的序列執行,在上一個事件ACK迴應到達之前,不允許繼續傳送下一個事件;這個行為在跨園區(RTT 2-3ms)的情況效能非常差,而且也不能很好地利用頻寬優勢。

優化方法

經過分析,我們的優化策略是:

  • 將傳送和ACK迴應的接收獨立到不同的執行緒中,由於傳送和接收都是基於TCP流的傳輸,所以時序性是有保障的;這樣傳送執行緒可以在未收ACK之前繼續傳送,接受執行緒收到ACK後喚醒等待的執行緒執行相應的任務。

效果

根據實際用例測試,優化後的TPS提升為15%左右。

三.核心功能的優化

1. 預留運維帳號連線數配額

在騰訊雲上,不時遇到使用者APP異常或者BUG從而佔滿DB的最大連線限制,這是CDB OSS帳號無法登入以進行緊急的運維操作。針對這個現狀,我們在MySQL核心單獨開闢了一個可配置的連線數配額,即便在上述場景下,運維帳號仍然可以連線到DB進行緊急的運維操作。極大地降低了異常情況下DB無政府狀態的風險。該帳號僅有資料庫運維管理許可權,無法獲取使用者資料,也保證了使用者資料的安全性。

2. 主備強同步

針對一些應用對資料的一致性要求非常高,CDB在MySQL原生半同步的基礎上進行了深度優化,確保一個事務在主庫上提交之前一定已經複製到至少一個備庫上。確保主庫當機時資料的一致性。

四.外圍系統的優化

除了以上提到的MySQL核心側的部分優化,我們也在外圍OSS平臺進行了多處優化。例如使用非同步MySQL ping協議實現大量例項的監控、通過分散式技術來加固原有系統的HA/服務發現和自動擴容等功能、在資料安全/故障切換和快速恢復方面也進行了多處優化。

相關推薦

騰訊雲資料庫CDB for MySQL產品相關文件

MySQL資料庫設計總結

MySQL資料庫的高可用性分析

問答

如何記錄PostgreSQL查詢?

相關閱讀

PostgreSQL新手入門

PostgreSQL配置優化

PostgreSQL主備環境搭建

【每日課程推薦】機器學習實戰!快速入門線上廣告業務及CTR相應知識

此文已由作者授權騰訊雲+社群釋出,更多原文請點選

搜尋關注公眾號「雲加社群」,第一時間獲取技術乾貨,關注後回覆1024 送你一份技術課程大禮包!

海量技術實踐經驗,盡在雲加社群

相關文章