MySQL 大表優化方案探討

manong發表於2016-08-05

當MySQL單表記錄數過大時,增刪改查效能都會急劇下降,可以參考以下步驟來優化:

單表優化

除非單表資料未來會一直不斷上漲,否則不要一開始就考慮拆分,拆分會帶來邏輯、部署、運維的各種複雜度,一般以整型值為主的表在千萬級以下,字串為主的表在五百萬以下是沒有太大問題的。而事實上很多時候MySQL單表的效能依然有不少優化空間,甚至能正常支撐千萬級以上的資料量:

欄位

  • 儘量使用TINYINTSMALLINTMEDIUM_INT作為整數型別而非INT,如果非負則加上UNSIGNED
  • VARCHAR的長度只分配真正需要的空間
  • 使用列舉或整數代替字串型別
  • 儘量使用TIMESTAMP而非DATETIME
  • 單表不要有太多欄位,建議在20以內
  • 避免使用NULL欄位,很難查詢優化且佔用額外索引空間
  • 用整型來存IP

索引

  • 索引並不是越多越好,要根據查詢有針對性的建立,考慮在WHEREORDER BY命令上涉及的列建立索引,可根據EXPLAIN來檢視是否用了索引還是全表掃描
  • 應儘量避免在WHERE子句中對欄位進行NULL值判斷,否則將導致引擎放棄使用索引而進行全表掃描
  • 值分佈很稀少的欄位不適合建索引,例如”性別”這種只有兩三個值的欄位
  • 字元欄位只建字首索引
  • 字元欄位最好不要做主鍵
  • 不用外來鍵,由程式保證約束
  • 儘量不用UNIQUE,由程式保證約束
  • 使用多列索引時主意順序和查詢條件保持一致,同時刪除不必要的單列索引

查詢SQL

  • 可通過開啟慢查詢日誌來找出較慢的SQL
  • 不做列運算:SELECT id WHERE age + 1 = 10,任何對列的操作都將導致表掃描,它包括資料庫教程函式、計算表示式等等,查詢時要儘可能將操作移至等號右邊
  • sql語句儘可能簡單:一條sql只能在一個cpu運算;大語句拆小語句,減少鎖時間;一條大sql可以堵死整個庫
  • 不用SELECT *
  • OR改寫成INOR的效率是n級別,IN的效率是log(n)級別,in的個數建議控制在200以內
  • 不用函式和觸發器,在應用程式實現
  • 避免%xxx式查詢
  • 少用JOIN
  • 使用同型別進行比較,比如用'123''123'比,123123
  • 儘量避免在WHERE子句中使用!=或<>操作符,否則將引擎放棄使用索引而進行全表掃描
  • 對於連續數值,使用BETWEEN不用INSELECT id FROM t WHERE num BETWEEN 1 AND 5
  • 列表資料不要拿全表,要使用LIMIT來分頁,每頁數量也不要太大

引擎

目前廣泛使用的是MyISAM和InnoDB兩種引擎:

MyISAM

MyISAM引擎是MySQL 5.1及之前版本的預設引擎,它的特點是:

  • 不支援行鎖,讀取時對需要讀到的所有表加鎖,寫入時則對錶加排它鎖
  • 不支援事務
  • 不支援外來鍵
  • 不支援崩潰後的安全恢復
  • 在表有讀取查詢的同時,支援往表中插入新紀錄
  • 支援BLOBTEXT的前500個字元索引,支援全文索引
  • 支援延遲更新索引,極大提升寫入效能
  • 對於不會進行修改的表,支援壓縮表,極大減少磁碟空間佔用

InnoDB

InnoDB在MySQL 5.5後成為預設索引,它的特點是:

  • 支援行鎖,採用MVCC來支援高併發
  • 支援事務
  • 支援外來鍵
  • 支援崩潰後的安全恢復
  • 不支援全文索引

總體來講,MyISAM適合SELECT密集型的表,而InnoDB適合INSERTUPDATE密集型的表

系統調優引數

可以使用下面幾個工具來做基準測試:

  • sysbench:一個模組化,跨平臺以及多執行緒的效能測試工具
  • iibench-mysql:基於 Java 的 MySQL/Percona/MariaDB 索引進行插入效能測試工具
  • tpcc-mysql:Percona開發的TPC-C測試工具

具體的調優引數內容較多,具體可參考官方文件,這裡介紹一些比較重要的引數:

  • back_log:back_log值指出在MySQL暫時停止回答新請求之前的短時間內多少個請求可以被存在堆疊中。也就是說,如果MySql的連線資料達到max_connections時,新來的請求將會被存在堆疊中,以等待某一連線釋放資源,該堆疊的數量即back_log,如果等待連線的數量超過back_log,將不被授予連線資源。可以從預設的50升至500
  • wait_timeout:資料庫連線閒置時間,閒置連線會佔用記憶體資源。可以從預設的8小時減到半小時
  • max_user_connection: 最大連線數,預設為0無上限,最好設一個合理上限
  • thread_concurrency:併發執行緒數,設為CPU核數的兩倍
  • skip_name_resolve:禁止對外部連線進行DNS解析,消除DNS解析時間,但需要所有遠端主機用IP訪問
  • key_buffer_size:索引塊的快取大小,增加會提升索引處理速度,對MyISAM表效能影響最大。對於記憶體4G左右,可設為256M或384M,通過查詢show status like 'key_read%',保證key_reads / key_read_requests在0.1%以下最好
  • innodb_buffer_pool_size:快取資料塊和索引塊,對InnoDB表效能影響最大。通過查詢show status like 'Innodb_buffer_pool_read%',保證 (Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests越高越好
  • innodb_additional_mem_pool_size:InnoDB儲存引擎用來存放資料字典資訊以及一些內部資料結構的記憶體空間大小,當資料庫物件非常多的時候,適當調整該引數的大小以確保所有資料都能存放在記憶體中提高訪問效率,當過小的時候,MySQL會記錄Warning資訊到資料庫的錯誤日誌中,這時就需要該調整這個引數大小
  • innodb_log_buffer_size:InnoDB儲存引擎的事務日誌所使用的緩衝區,一般來說不建議超過32MB
  • query_cache_size:快取MySQL中的ResultSet,也就是一條SQL語句執行的結果集,所以僅僅只能針對select語句。當某個表的資料有任何任何變化,都會導致所有引用了該表的select語句在Query Cache中的快取資料失效。所以,當我們的資料變化非常頻繁的情況下,使用Query Cache可能會得不償失。根據命中率(Qcache_hits/(Qcache_hits+Qcache_inserts)*100))進行調整,一般不建議太大,256MB可能已經差不多了,大型的配置型靜態資料可適當調大.
    可以通過命令show status like 'Qcache_%'檢視目前系統Query catch使用大小
  • read_buffer_size:MySql讀入緩衝區大小。對錶進行順序掃描的請求將分配一個讀入緩衝區,MySql會為它分配一段記憶體緩衝區。如果對錶的順序掃描請求非常頻繁,可以通過增加該變數值以及記憶體緩衝區大小提高其效能
  • sort_buffer_size:MySql執行排序使用的緩衝大小。如果想要增加ORDER BY的速度,首先看是否可以讓MySQL使用索引而不是額外的排序階段。如果不能,可以嘗試增加sort_buffer_size變數的大小
  • read_rnd_buffer_size:MySql的隨機讀緩衝區大小。當按任意順序讀取行時(例如,按照排序順序),將分配一個隨機讀快取區。進行排序查詢時,MySql會首先掃描一遍該緩衝,以避免磁碟搜尋,提高查詢速度,如果需要排序大量資料,可適當調高該值。但MySql會為每個客戶連線發放該緩衝空間,所以應儘量適當設定該值,以避免記憶體開銷過大。
  • record_buffer:每個進行一個順序掃描的執行緒為其掃描的每張表分配這個大小的一個緩衝區。如果你做很多順序掃描,可能想要增加該值
  • thread_cache_size:儲存當前沒有與連線關聯但是準備為後面新的連線服務的執行緒,可以快速響應連線的執行緒請求而無需建立新的
  • table_cache:類似於thread_cache_size,但用來快取表檔案,對InnoDB效果不大,主要用於MyISAM

升級硬體

Scale up,這個不多說了,根據MySQL是CPU密集型還是I/O密集型,通過提升CPU和記憶體、使用SSD,都能顯著提升MySQL效能

讀寫分離

也是目前常用的優化,從庫讀主庫寫,一般不要採用雙主或多主引入很多複雜性,儘量採用文中的其他方案來提高效能。同時目前很多拆分的解決方案同時也兼顧考慮了讀寫分離

快取

快取可以發生在這些層次:

  • MySQL內部:在系統調優引數介紹了相關設定
  • 資料訪問層:比如MyBatis針對SQL語句做快取,而Hibernate可以精確到單個記錄,這裡快取的物件主要是持久化物件Persistence Object
  • 應用服務層:這裡可以通過程式設計手段對快取做到更精準的控制和更多的實現策略,這裡快取的物件是資料傳輸物件Data Transfer Object
  • Web層:針對web頁面做快取
  • 瀏覽器客戶端:使用者端的快取

可以根據實際情況在一個層次或多個層次結合加入快取。這裡重點介紹下服務層的快取實現,目前主要有兩種方式:

  • 直寫式(Write Through):在資料寫入資料庫後,同時更新快取,維持資料庫與快取的一致性。這也是當前大多數應用快取框架如Spring Cache的工作方式。這種實現非常簡單,同步好,但效率一般。
  • 回寫式(Write Back):當有資料要寫入資料庫時,只會更新快取,然後非同步批量的將快取資料同步到資料庫上。這種實現比較複雜,需要較多的應用邏輯,同時可能會產生資料庫與快取的不同步,但效率非常高。

表分割槽

MySQL在5.1版引入的分割槽是一種簡單的水平拆分,使用者需要在建表的時候加上分割槽引數,對應用是透明的無需修改程式碼

對使用者來說,分割槽表是一個獨立的邏輯表,但是底層由多個物理子表組成,實現分割槽的程式碼實際上是通過對一組底層表的物件封裝,但對SQL層來說是一個完全封裝底層的黑盒子。MySQL實現分割槽的方式也意味著索引也是按照分割槽的子表定義,沒有全域性索引

使用者的SQL語句是需要針對分割槽表做優化,SQL條件中要帶上分割槽條件的列,從而使查詢定位到少量的分割槽上,否則就會掃描全部分割槽,可以通過EXPLAIN PARTITIONS來檢視某條SQL語句會落在那些分割槽上,從而進行SQL優化,如下圖5條記錄落在兩個分割槽上:

mysql> explain partitions select count(1) from user_partition where id in (1,2,3,4,5);
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
| id | select_type | table          | partitions | type  | possible_keys | key     | key_len | ref  | rows | Extra                    |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
|  1 | SIMPLE      | user_partition | p1,p4      | range | PRIMARY       | PRIMARY | 8       | NULL |    5 | Using where; Using index |
+----+-------------+----------------+------------+-------+---------------+---------+---------+------+------+--------------------------+
1 row in set (0.00 sec)

分割槽的好處是:

  • 可以讓單表儲存更多的資料
  • 分割槽表的資料更容易維護,可以通過清楚整個分割槽批量刪除大量資料,也可以增加新的分割槽來支援新插入的資料。另外,還可以對一個獨立分割槽進行優化、檢查、修復等操作
  • 部分查詢能夠從查詢條件確定只落在少數分割槽上,速度會很快
  • 分割槽表的資料還可以分佈在不同的物理裝置上,從而搞笑利用多個硬體裝置
  • 可以使用分割槽表賴避免某些特殊瓶頸,例如InnoDB單個索引的互斥訪問、ext3檔案系統的inode鎖競爭
  • 可以備份和恢復單個分割槽

分割槽的限制和缺點:

  • 一個表最多隻能有1024個分割槽
  • 如果分割槽欄位中有主鍵或者唯一索引的列,那麼所有主鍵列和唯一索引列都必須包含進來
  • 分割槽表無法使用外來鍵約束
  • NULL值會使分割槽過濾無效
  • 所有分割槽必須使用相同的儲存引擎

分割槽的型別:

  • RANGE分割槽:基於屬於一個給定連續區間的列值,把多行分配給分割槽
  • LIST分割槽:類似於按RANGE分割槽,區別在於LIST分割槽是基於列值匹配一個離散值集合中的某個值來進行選擇
  • HASH分割槽:基於使用者定義的表示式的返回值來進行選擇的分割槽,該表示式使用將要插入到表中的這些行的列值進行計算。這個函式可以包含MySQL中有效的、產生非負整數值的任何表示式
  • KEY分割槽:類似於按HASH分割槽,區別在於KEY分割槽只支援計算一列或多列,且MySQL伺服器提供其自身的雜湊函式。必須有一列或多列包含整數值

分割槽適合的場景有:

  • 最適合的場景資料的時間序列性比較強,則可以按時間來分割槽,如下所示:
    CREATE TABLE members (
        firstname VARCHAR(25) NOT NULL,
        lastname VARCHAR(25) NOT NULL,
        username VARCHAR(16) NOT NULL,
        email VARCHAR(35),
        joined DATE NOT NULL
    )
    PARTITION BY RANGE( YEAR(joined) ) (
        PARTITION p0 VALUES LESS THAN (1960),
        PARTITION p1 VALUES LESS THAN (1970),
        PARTITION p2 VALUES LESS THAN (1980),
        PARTITION p3 VALUES LESS THAN (1990),
        PARTITION p4 VALUES LESS THAN MAXVALUE
    );

查詢時加上時間範圍條件效率會非常高,同時對於不需要的歷史資料能很容的批量刪除。

  • 如果資料有明顯的熱點,而且除了這部分資料,其他資料很少被訪問到,那麼可以將熱點資料單獨放在一個分割槽,讓這個分割槽的資料能夠有機會都快取在記憶體中,查詢時只訪問一個很小的分割槽表,能夠有效使用索引和快取

另外MySQL有一種早期的簡單的分割槽實現 – 合併表(merge table),限制較多且缺乏優化,不建議使用,應該用新的分割槽機制來替代

垂直拆分

垂直分庫是根據資料庫裡面的資料表的相關性進行拆分,比如:一個資料庫裡面既存在使用者資料,又存在訂單資料,那麼垂直拆分可以把使用者資料放到使用者庫、把訂單資料放到訂單庫。垂直分表是對資料表進行垂直拆分的一種方式,常見的是把一個多欄位的大表按常用欄位和非常用欄位進行拆分,每個表裡面的資料記錄數一般情況下是相同的,只是欄位不一樣,使用主鍵關聯

比如原始的使用者表是:

垂直拆分後是:

垂直拆分的優點是:

  • 可以使得行資料變小,一個資料塊(Block)就能存放更多的資料,在查詢時就會減少I/O次數(每次查詢時讀取的Block 就少)
  • 可以達到最大化利用Cache的目的,具體在垂直拆分的時候可以將不常變的欄位放一起,將經常改變的放一起
  • 資料維護簡單

缺點是:

  • 主鍵出現冗餘,需要管理冗餘列
  • 會引起表連線JOIN操作(增加CPU開銷)可以通過在業務伺服器上進行join來減少資料庫壓力
  • 依然存在單表資料量過大的問題(需要水平拆分)
  • 事務處理複雜

水平拆分

概述

水平拆分是通過某種策略將資料分片來儲存,分庫內分表和分庫兩部分,每片資料會分散到不同的MySQL表或庫,達到分散式的效果,能夠支援非常大的資料量。前面的表分割槽本質上也是一種特殊的庫內分表

庫內分表,僅僅是單純的解決了單一表資料過大的問題,由於沒有把表的資料分佈到不同的機器上,因此對於減輕MySQL伺服器的壓力來說,並沒有太大的作用,大家還是競爭同一個物理機上的IO、CPU、網路,這個就要通過分庫來解決

前面垂直拆分的使用者表如果進行水平拆分,結果是:

實際情況中往往會是垂直拆分和水平拆分的結合,即將Users_A_MUsers_N_Z再拆成UsersUserExtras,這樣一共四張表

水平拆分的優點是:

  • 不存在單庫大資料和高併發的效能瓶頸
  • 應用端改造較少
  • 提高了系統的穩定性和負載能力

缺點是:

  • 分片事務一致性難以解決
  • 跨節點Join效能差,邏輯複雜
  • 資料多次擴充套件難度跟維護量極大

分片原則

  • 能不分就不分,參考單表優化
  • 分片數量儘量少,分片儘量均勻分佈在多個資料結點上,因為一個查詢SQL跨分片越多,則總體效能越差,雖然要好於所有資料在一個分片的結果,只在必要的時候進行擴容,增加分片數量
  • 分片規則需要慎重選擇做好提前規劃,分片規則的選擇,需要考慮資料的增長模式,資料的訪問模式,分片關聯性問題,以及分片擴容問題,最近的分片策略為範圍分片,列舉分片,一致性Hash分片,這幾種分片都有利於擴容
  • 儘量不要在一個事務中的SQL跨越多個分片,分散式事務一直是個不好處理的問題
  • 查詢條件儘量優化,儘量避免Select * 的方式,大量資料結果集下,會消耗大量頻寬和CPU資源,查詢儘量避免返回大量結果集,並且儘量為頻繁使用的查詢語句建立索引。
  • 通過資料冗餘和表分割槽賴降低跨庫Join的可能

這裡特別強調一下分片規則的選擇問題,如果某個表的資料有明顯的時間特徵,比如訂單、交易記錄等,則他們通常比較合適用時間範圍分片,因為具有時效性的資料,我們往往關注其近期的資料,查詢條件中往往帶有時間欄位進行過濾,比較好的方案是,當前活躍的資料,採用跨度比較短的時間段進行分片,而歷史性的資料,則採用比較長的跨度儲存。

總體上來說,分片的選擇是取決於最頻繁的查詢SQL的條件,因為不帶任何Where語句的查詢SQL,會遍歷所有的分片,效能相對最差,因此這種SQL越多,對系統的影響越大,所以我們要儘量避免這種SQL的產生。

解決方案

由於水平拆分牽涉的邏輯比較複雜,當前也有了不少比較成熟的解決方案。這些方案分為兩大類:客戶端架構和代理架構。

客戶端架構

通過修改資料訪問層,如JDBC、Data Source、MyBatis,通過配置來管理多個資料來源,直連資料庫,並在模組內完成資料的分片整合,一般以Jar包的方式呈現

這是一個客戶端架構的例子:

可以看到分片的實現是和應用伺服器在一起的,通過修改Spring JDBC層來實現

客戶端架構的優點是:

  • 應用直連資料庫,降低外圍系統依賴所帶來的當機風險
  • 整合成本低,無需額外運維的元件

缺點是:

  • 限於只能在資料庫訪問層上做文章,擴充套件性一般,對於比較複雜的系統可能會力不從心
  • 將分片邏輯的壓力放在應用伺服器上,造成額外風險

代理架構

通過獨立的中介軟體來統一管理所有資料來源和資料分片整合,後端資料庫叢集對前端應用程式透明,需要獨立部署和運維代理元件

這是一個代理架構的例子:

代理元件為了分流和防止單點,一般以叢集形式存在,同時可能需要Zookeeper之類的服務元件來管理

代理架構的優點是:

  • 能夠處理非常複雜的需求,不受資料庫訪問層原來實現的限制,擴充套件性強
  • 對於應用伺服器透明且沒有增加任何額外負載

缺點是:

  • 需部署和運維獨立的代理中介軟體,成本高
  • 應用需經過代理來連線資料庫,網路上多了一跳,效能有損失且有額外風險

各方案比較

出品方 架構模型 支援資料庫 分庫 分表 讀寫分離 外部依賴 是否開源 實現語言 支援語言 最後更新 Github星數
MySQL Fabric MySQL官方 代理架構 MySQL python 無限制 4個月前 35
Cobar 阿里巴巴 代理架構 MySQL Java 無限制 兩年前 1287
Cobar Client 阿里巴巴 客戶端架構 MySQL Java Java 三年前 344
TDDL 淘寶 客戶端架構 無限制 Diamond 只開源部分 Java Java 未知 519
Atlas 奇虎360 代理架構 MySQL C 無限制 10個月前 1941
Heisenberg 百度熊照 代理架構 MySQL Java 無限制 2個月前 197
TribeDB 個人 代理架構 MySQL NodeJS 無限制 3個月前 126
ShardingJDBC 噹噹 客戶端架構 MySQL Java Java 當天 1144
Shark 個人 客戶端架構 MySQL Java Java 兩天前 84
KingShard 個人 代理架構 MySQL Golang 無限制 兩天前 1836
OneProxy 平民軟體 代理架構 MySQL 未知 無限制 未知 未知
MyCat 社群 代理架構 MySQL Java 無限制 兩天前 1270
Vitess Youtube 代理架構 MySQL Golang 無限制 當天 3636
Mixer 個人 代理架構 MySQL Golang 無限制 9個月前 472
JetPants Tumblr 客戶端架構 MySQL Ruby Ruby 10個月前 957
HibernateShard Hibernate 客戶端架構 無限制 Java Java 4年前 57
MybatisShard MakerSoft 客戶端架構 無限制 Java Java 11個月前 119
Gizzard Twitter 代理架構 無限制 Java 無限制 3年前 2087

如此多的方案,如何進行選擇?可以按以下思路來考慮:

  1. 確定是使用代理架構還是客戶端架構。中小型規模或是比較簡單的場景傾向於選擇客戶端架構,複雜場景或大規模系統傾向選擇代理架構
  2. 具體功能是否滿足,比如需要跨節點ORDER BY,那麼支援該功能的優先考慮
  3. 不考慮一年內沒有更新的產品,說明開發停滯,甚至無人維護和技術支援
  4. 最好按大公司->社群->小公司->個人這樣的出品方順序來選擇
  5. 選擇口碑較好的,比如github星數、使用者數量質量和使用者反饋
  6. 開源的優先,往往專案有特殊需求可能需要改動原始碼

按照上述思路,推薦以下選擇:

  • 客戶端架構:
  • 代理架構

相容MySQL且可水平擴充套件的資料庫

目前也有一些開源資料庫相容MySQL協議,如:

但其工業品質和MySQL尚有差距,且需要較大的運維投入,如果想將原始的MySQL遷移到可水平擴充套件的新資料庫中,可以考慮一些雲資料庫:

NoSQL

在MySQL上做Sharding是一種戴著鐐銬的跳舞,事實上很多大表本身對MySQL這種RDBMS的需求並不大,並不要求ACID,可以考慮將這些表遷移到NoSQL,徹底解決水平擴充套件問題,例如:

  • 日誌類、監控類、統計類資料
  • 非結構化或弱結構化資料
  • 對事務要求不強,且無太多關聯操作的資料

相關文章