當MySQL單表記錄數過大時,增刪改查效能都會急劇下降
單表優化
除非單表資料未來會一直不斷上漲,否則不要一開始就考慮拆分,拆分會帶來邏輯、部署、運維的各種複雜度,一般以整型值為主的表在千萬級以下,字串為主的表在五百萬以下是沒有太大問題的。
而事實上很多時候 MySQL 單表的效能依然有不少優化空間,甚至能正常支撐千萬級以上的資料量。
欄位
- 儘量使用
TINYINT
、SMALLINT
、MEDIUM_INT
作為整數型別而非INT
,如果非負則加上UNSIGNED
VARCHAR
的長度只分配真正需要的空間- 使用列舉或整數代替字串型別
- 儘量使用
TIMESTAMP
而非DATETIME
- 單表不要有太多欄位,建議在 20 以內
- 避免使用
NULL
欄位,很難查詢優化且佔用額外索引空間 - 用整型來存 IP
索引
- 索引並不是越多越好,要根據查詢有針對性的建立,考慮在
WHERE
和ORDER BY
命令上涉及的列建立索引,可根據EXPLAIN
來檢視是否用了索引還是全表掃描 - 應儘量避免在
WHERE
子句中對欄位進行NULL
值判斷,否則將導致引擎放棄使用索引而進行全表掃描 - 值分佈很稀少的欄位不適合建索引,例如"性別"這種只有兩三個值的欄位
- 字元欄位只建字首索引
- 字元欄位最好不要做主鍵
- 不用外來鍵,由程式保證約束
- 儘量不用
UNIQUE
,由程式保證約束 - 使用多列索引時主意順序和查詢條件保持一致,同時刪除不必要的單列索引
查詢SQL
- 可通過開啟慢查詢日誌來找出較慢的 SQL
- 不做列運算:
SELECT id WHERE age+1=10
,任何對列的操作都將導致表掃描,它包括資料庫教程函式、計算表示式等等,查詢時要儘可能將操作移至等號右邊 - sql 語句儘可能簡單:一條 sql 只能在一個 cpu 運算;大語句拆小語句,減少鎖時間;一條大sql 可以堵死整個庫
- 不用
SELECT *
OR
改寫成IN
:OR
的效率是 n 級別,IN
的效率是 log(n) 級別,IN
的個數建議控制在 200 以內- 不用函式和觸發器,在應用程式實現
- 避免
%xxx
式查詢 - 少用
JOIN
- 使用同型別進行比較,比如用 '123' 和 '123' 比, 123 和 123 比
- 儘量避免在
WHERE
子句中使用!=
或<>
操作符,否則將引擎放棄使用索引而進行全表掃描 - 對於連續數值,使用
BETWEEN
不用IN
:SELECT id FROM t WHERE num BETWEEN 1 AND 5
- 列表資料不要拿全表,要使用
LIMIT
來分頁,每頁數量也不要太大
引擎
目前廣泛使用的是 MyISAM 和 InnoDB 兩種引擎:
MyISAM
MyISAM 引擎是 MySQL 5.1 及之前版本的預設引擎,它的特點是:
- 不支援行鎖,讀取時對需要讀到的所有表加鎖,寫入時則對錶加排它鎖
- 不支援事務
- 不支援外來鍵
- 不支援崩潰後的安全恢復
- 在表有讀取查詢的同時,支援往表中插入新紀錄
- 支援
BLOB
和TEXT
的前 500 個字元索引,支援全文索引 - 支援延遲更新索引,極大提升寫入效能
- 對於不會進行修改的表,支援壓縮表,極大減少磁碟空間佔用
InnoDB
InnoDB 在 MySQL 5.5 後成為預設索引,它的特點是:
- 支援行鎖,採用 MVCC 來支援高併發
- 支援事務
- 支援外來鍵
- 支援崩潰後的安全恢復
- 不支援全文索引
總體來講,MyISAM 適合
SELECT
密集型的表,而 InnoDB 適合INSERT
和UPDATE
密集型的表
系統調優引數
可以使用下面幾個工具來做基準測試:
- sysbench:一個模組化,跨平臺以及多執行緒的效能測試工具
- iibench-mysql:基於 Java 的 MySQL/Percona/MariaDB 索引進行插入效能測試工具
- tpcc-mysql:Percona 開發的 TPC-C 測試工具
具體的調優引數內容較多,具體可參考官方文件,這裡介紹一些比較重要的引數:
- backlog:backlog 值指出在 MySQL 暫時停止回答新請求之前的短時間內多少個請求可以被存在堆疊中。也就是說,如果 MySql 的連線資料達到 maxconnections 時,新來的請求將會被存在堆疊中,以等待某一連線釋放資源,該堆疊的數量即 backlog,如果等待連線的數量超過 back_log,將不被授予連線資源。可以從預設的 50 升至 500
- wait_timeout:資料庫連線閒置時間,閒置連線會佔用記憶體資源。可以從預設的 8 小時減到半小時
- maxuserconnection: 最大連線數,預設為 0 無上限,最好設一個合理上限
- thread_concurrency:併發執行緒數,設為 CPU 核數的兩倍
- skipnameresolve:禁止對外部連線進行 DNS 解析,消除 DNS 解析時間,但需要所有遠端主機用 IP 訪問
- keybuffersize:索引塊的快取大小,增加會提升索引處理速度,對 MyISAM 表效能影響最大。對於記憶體 4G 左右,可設為 256M 或 384M,通過查詢
show status like'key_read%'
,保證 key_reads / key_read_requests 在 0.1% 以下最好 - innodbbufferpool_size:快取資料塊和索引塊,對 InnoDB 表效能影響最大。通過查詢
show status like'Innodb_buffer_pool_read%'
,保證 (Innodb_buffer_pool_read_requests – Innodb_buffer_pool_reads) / Innodb_buffer_pool_read_requests 越高越好 - innodbadditionalmempoolsize:InnoDB 儲存引擎用來存放資料字典資訊以及一些內部資料結構的記憶體空間大小,當資料庫物件非常多的時候,適當調整該引數的大小以確保所有資料都能存放在記憶體中提高訪問效率,當過小的時候,MySQL 會記錄 Warning 資訊到資料庫的錯誤日誌中,這時就需要該調整這個引數大小
- innodblogbuffer_size:InnoDB 儲存引擎的事務日誌所使用的緩衝區,一般來說不建議超過 32MB
- querycachesize:快取 MySQL 中的 ResultSet,也就是一條 SQL 語句執行的結果集,所以僅僅只能針對
select
語句。當某個表的資料有任何任何變化,都會導致所有引用了該表的select
語句在 Query Cache 中的快取資料失效。所以,當我們的資料變化非常頻繁的情況下,使用 Query Cache 可能會得不償失。根據命中率 (Qcache_hits / (Qcache_hits + Qcache_inserts) * 100)) 進行調整,一般不建議太大,256MB 可能已經差不多了,大型的配置型靜態資料可適當調大. 可以通過命令show status like'Qcache_%'
檢視目前系統 Query Catch 使用大小 - readbuffersize:MySql 讀入緩衝區大小。對錶進行順序掃描的請求將分配一個讀入緩衝區,MySql 會為它分配一段記憶體緩衝區。如果對錶的順序掃描請求非常頻繁,可以通過增加該變數值以及記憶體緩衝區大小提高其效能
- sortbuffersize:MySql 執行排序使用的緩衝大小。如果想要增加
ORDER BY
的速度,首先看是否可以讓 MySQL 使用索引而不是額外的排序階段。如果不能,可以嘗試增加 sortbuffersize 變數的大小 - readrndbuffer_size:MySql 的隨機讀緩衝區大小。當按任意順序讀取行時(例如,按照排序順序),將分配一個隨機讀快取區。進行排序查詢時,MySql 會首先掃描一遍該緩衝,以避免磁碟搜尋,提高查詢速度,如果需要排序大量資料,可適當調高該值。但 MySql 會為每個客戶連線發放該緩衝空間,所以應儘量適當設定該值,以避免記憶體開銷過大
- record_buffer:每個進行一個順序掃描的執行緒為其掃描的每張表分配這個大小的一個緩衝區。如果你做很多順序掃描,可能想要增加該值
- threadcachesize:儲存當前沒有與連線關聯但是準備為後面新的連線服務的執行緒,可以快速響應連線的執行緒請求而無需建立新的
- tablecache:類似於 threadcache_size,但用來快取表檔案,對 InnoDB 效果不大,主要用於 MyISAM
升級硬體
Scale up,這個不多說了,根據 MySQL 是 CPU 密集型還是 I/O 密集型,通過提升 CPU 和記憶體、使用 SSD,都能顯著提升 MySQL 效能。
讀寫分離
也是目前常用的優化,從庫讀主庫寫,一般不要採用雙主或多主引入很多複雜性,儘量採用文中的其他方案來提高效能。 同時目前很多拆分的解決方案同時也兼顧考慮了讀寫分離。
快取
快取可以發生在這些層次:
- MySQL 內部:在系統調優引數介紹了相關設定
- 資料訪問層:比如 MyBatis 針對 SQL 語句做快取,而 Hibernate 可以精確到單個記錄,這裡快取的物件主要是持久化物件 PersistenceObject
- 應用服務層:這裡可以通過程式設計手段對快取做到更精準的控制和更多的實現策略,這裡快取的物件是資料傳輸物件 DataTransferObject(DTO)
- Web 層:針對 web 頁面做快取
- 瀏覽器客戶端:使用者端的快取
可以根據實際情況在一個層次或多個層次結合加入快取。 這裡重點介紹下服務層的快取實現,目前主要有兩種方式:
- 直寫式(Write Through):在資料寫入資料庫後,同時更新快取,維持資料庫與快取的一致性。這也是當前大多數應用快取框架如 Spring Cache 的工作方式。這種實現非常簡單,同步好,但效率一般。
- 回寫式(Write Back):當有資料要寫入資料庫時,只會更新快取,然後非同步批量的將快取資料同步到資料庫上。這種實現比較複雜,需要較多的應用邏輯,同時可能會產生資料庫與快取的不同步,但效率非常高。
表分割槽
MySQL 在 5.1 版引入的分割槽是一種簡單的水平拆分,使用者需要在建表的時候加上分割槽引數,對應用是透明的無需修改程式碼
對使用者來說,分割槽表是一個獨立的邏輯表,但是底層由多個物理子表組成,實現分割槽的程式碼實際上是通過對一組底層表的物件封裝,但對 SQL 層來說是一個完全封裝底層的黑盒子。MySQL 實現分割槽的方式也意味著索引也是按照分割槽的子表定義,沒有全域性索引。
使用者的 SQL 語句是需要針對分割槽表做優化,SQL 條件中要帶上分割槽條件的列,從而使查詢定位到少量的分割槽上,否則就會掃描全部分割槽,可以通過 EXPLAIN PARTITIONS
來檢視某條
SQL 語句會落在那些分割槽上,從而進行 SQL 優化,如下圖 5 條記錄落在兩個分割槽上:
分割槽的好處是:
- 可以讓單表儲存更多的資料
- 分割槽表的資料更容易維護,可以通過清楚整個分割槽批量刪除大量資料,也可以增加新的分割槽來支援新插入的資料。另外,還可以對一個獨立分割槽進行優化、檢查、修復等操作
- 部分查詢能夠從查詢條件確定只落在少數分割槽上,速度會很快
- 分割槽表的資料還可以分佈在不同的物理裝置上,從而高效利用多個硬體裝置
- 可以使用分割槽表賴避免某些特殊瓶頸,例如 InnoDB 單個索引的互斥訪問、ext3 檔案系統的 inode 鎖競爭
- 可以備份和恢復單個分割槽
分割槽的限制和缺點:
- 一個表最多隻能有 1024 個分割槽
- 如果分割槽欄位中有主鍵或者唯一索引的列,那麼所有主鍵列和唯一索引列都必須包含進來
- 分割槽表無法使用外來鍵約束
- NULL 值會使分割槽過濾無效
- 所有分割槽必須使用相同的儲存引擎
分割槽的型別:
- RANGE 分割槽:基於屬於一個給定連續區間的列值,把多行分配給分割槽
- LIST 分割槽:類似於按 RANGE 分割槽,區別在於 LIST 分割槽是基於列值匹配一個離散值集合中的某個值來進行選擇
- HASH 分割槽:基於使用者定義的表示式的返回值來進行選擇的分割槽,該表示式使用將要插入到表中的這些行的列值進行計算。這個函式可以包含 MySQL 中有效的、產生非負整數值的任何表示式
- KEY 分割槽:類似於按 HASH 分割槽,區別在於 KEY 分割槽只支援計算一列或多列,且 MySQL 伺服器提供其自身的雜湊函式。必須有一列或多列包含整數值
分割槽適合的場景有:
最適合的場景資料的時間序列性比較強,則可以按時間來分割槽,如下所示:
查詢時加上時間範圍條件效率會非常高,同時對於不需要的歷史資料能很容的批量刪除。
如果資料有明顯的熱點,而且除了這部分資料,其他資料很少被訪問到,那麼可以將熱點資料單獨放在一個分割槽,讓這個分割槽的資料能夠有機會都快取在記憶體中,查詢時只訪問一個很小的分割槽表,能夠有效使用索引和快取
另外 MySQL 有一種早期的簡單的分割槽實現 - 合併表(merge table),限制較多且缺乏優化,不建議使用,應該用新的分割槽機制來替代
垂直拆分
垂直分庫是根據資料庫裡面的資料表的相關性進行拆分。 比如:一個資料庫裡面既存在使用者資料,又存在訂單資料,那麼垂直拆分可以把使用者資料放到使用者庫、把訂單資料放到訂單庫。 垂直分表是對資料表進行垂直拆分的一種方式,常見的是把一個多欄位的大表按常用欄位和非常用欄位進行拆分,每個表裡面的資料記錄數一般情況下是相同的,只是欄位不一樣,使用主鍵關聯
比如原始的使用者表是:
垂直拆分後是:
垂直拆分的優點是:
- 可以使得行資料變小,一個資料塊( Block )就能存放更多的資料,在查詢時就會減少 I/O 次數(每次查詢時讀取的 Block 就少)
- 可以達到最大化利用 Cache 的目的,具體在垂直拆分的時候可以將不常變的欄位放一起,將經常改變的放一起
- 資料維護簡單
缺點是:
- 主鍵出現冗餘,需要管理冗餘列
- 會引起表連線 JOIN 操作(增加 CPU 開銷)可以通過在業務伺服器上進行 join 來減少資料庫壓力
- 依然存在單表資料量過大的問題(需要水平拆分)
- 事務處理複雜
水平拆分
概述
水平拆分是通過某種策略將資料分片來儲存,分庫內分表和分庫兩部分,每片資料會分散到不同的 MySQL 表或庫,達到分散式的效果,能夠支援非常大的資料量。前面的表分割槽本質上也是一種特殊的庫內分表
庫內分表,僅僅是單純的解決了單一表資料過大的問題,由於沒有把表的資料分佈到不同的機器上,因此對於減輕 MySQL 伺服器的壓力來說,並沒有太大的作用,大家還是競爭同一個物理機上的 IO、CPU、網路,這個就要通過分庫來解決
前面垂直拆分的使用者表如果進行水平拆分,結果是:
實際情況中往往會是垂直拆分和水平拆分的結合,即將 Users_A_M 和 Users_N_Z 再拆成 Users 和 UserExtras,這樣一共四張表
水平拆分的優點是:
- 不存在單庫大資料和高併發的效能瓶頸
- 應用端改造較少
- 提高了系統的穩定性和負載能力
缺點是:
- 分片事務一致性難以解決
- 跨節點 Join 效能差,邏輯複雜
- 資料多次擴充套件難度跟維護量極大
分片原則
- 能不分就不分,參考單表優化
- 分片數量儘量少,分片儘量均勻分佈在多個資料結點上,因為一個查詢 SQL 跨分片越多,則總體效能越差,雖然要好於所有資料在一個分片的結果,只在必要的時候進行擴容,增加分片數量
- 分片規則需要慎重選擇做好提前規劃,分片規則的選擇,需要考慮資料的增長模式,資料的訪問模式,分片關聯性問題,以及分片擴容問題,最近的分片策略為範圍分片,列舉分片,一致性 Hash 分片,這幾種分片都有利於擴容
- 儘量不要在一個事務中的 SQL 跨越多個分片,分散式事務一直是個不好處理的問題
- 查詢條件儘量優化,儘量避免
Select *
的方式,大量資料結果集下,會消耗大量頻寬和 CPU 資源,查詢儘量避免返回大量結果集,並且儘量為頻繁使用的查詢語句建立索引。 - 通過資料冗餘和表分割槽依賴降低跨庫 Join 的可能
這裡特別強調一下分片規則的選擇問題,如果某個表的資料有明顯的時間特徵,比如訂單、交易記錄等,則他們通常比較合適用時間範圍分片,因為具有時效性的資料,我們往往關注其近期的資料,查詢條件中往往帶有時間欄位進行過濾,比較好的方案是,當前活躍的資料,採用跨度比較短的時間段進行分片,而歷史性的資料,則採用比較長的跨度儲存。
總體上來說,分片的選擇是取決於最頻繁的查詢 SQL 的條件,因為不帶任何 Where
語句的查詢 SQL,會遍歷所有的分片,效能相對最差,因此這種 SQL 越多,對系統的影響越大,所以我們要儘量避免這種 SQL 的產生。
解決方案
由於水平拆分牽涉的邏輯比較複雜,當前也有了不少比較成熟的解決方案。這些方案分為兩大類:
- 客戶端架構
- 代理架構
客戶端架構
通過修改資料訪問層,如 JDBC、Data Source、MyBatis,通過配置來管理多個資料來源,直連資料庫,並在模組內完成資料的分片整合,一般以 Jar 包的方式呈現
這是一個客戶端架構的例子:
可以看到分片的實現是和應用伺服器在一起的,通過修改 Spring JDBC 層來實現
客戶端架構的優點是:
- 應用直連資料庫,降低外圍系統依賴所帶來的當機風險
- 整合成本低,無需額外運維的元件
缺點是:
- 限於只能在資料庫訪問層上做文章,擴充套件性一般,對於比較複雜的系統可能會力不從心
- 將分片邏輯的壓力放在應用伺服器上,造成額外風險
代理架構
通過獨立的中介軟體來統一管理所有資料來源和資料分片整合,後端資料庫叢集對前端應用程式透明,需要獨立部署和運維代理元件
這是一個代理架構的例子:
代理元件為了分流和防止單點,一般以叢集形式存在,同時可能需要 Zookeeper 之類的服務元件來管理
代理架構的優點是:
- 能夠處理非常複雜的需求,不受資料庫訪問層原來實現的限制,擴充套件性強
- 對於應用伺服器透明且沒有增加任何額外負載
缺點是:
- 需部署和運維獨立的代理中介軟體,成本高
- 應用需經過代理來連線資料庫,網路上多了一跳,效能有損失且有額外風險
各方案比較
框架 | 出品方 | 架構模型 | 支援資料庫 | 分庫 | 分表 | 讀寫分離 | 外部依賴 | 是否開源 | 實現語言 | 支援語言 | GitHub星數 |
---|---|---|---|---|---|---|---|---|---|---|---|
MySQL Fabric | MySQL官方 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | python | 無限制 | 35 |
Cobar | 阿里巴巴 | 代理架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | 無限制 | 1287 |
Cobar Client | 阿里巴巴 | 客戶端架構 | MySQL | 有 | 無 | 無 | 無 | 是 | Java | Java | 344 |
TDDL | 淘寶 | 客戶端架構 | 無限制 | 有 | 有 | 有 | Diamond | 只開源部分 | Java | Java | 519 |
Atlas | 奇虎360 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | C | 無限制 | 1941 |
Heisenberg | 百度熊照 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 197 |
TribeDB | 個人 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | NodeJS | 無限制 | 126 |
Sharding JDBC | 噹噹 | 客戶端架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | Java | 1144 |
Shark | 個人 | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Java | Java | 84 |
KingShard | 個人 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 1836 |
OneProxy | 平民軟體 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 否 | 未知 | 無限制 | 未知 |
MyCat | 社群 | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Java | 無限制 | 1270 |
Vitess | Youtube | 代理架構 | MySQL | 有 | 有 | 有 | 無 | 是 | Golang | 無限制 | 3636 |
Mixer | 個人 | 代理架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Golang | 無限制 | 472 |
JetPants | Tumblr | 客戶端架構 | MySQL | 有 | 有 | 無 | 無 | 是 | Ruby | Ruby | 957 |
HibernateShard | Hibernate | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 57 |
MybatisShard | MakerSoft | 客戶端架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | Java | 119 |
Gizzard | 代理架構 | 無限制 | 有 | 有 | 無 | 無 | 是 | Java | 無限制 | 2087 |
如此多的方案,如何進行選擇?可以按以下思路來考慮:
- 確定是使用代理架構還是客戶端架構。中小型規模或是比較簡單的場景傾向於選擇客戶端架構,複雜場景或大規模系統傾向選擇代理架構
- 具體功能是否滿足,比如需要跨節點
ORDER BY
,那麼支援該功能的優先考慮 - 不考慮一年內沒有更新的產品,說明開發停滯,甚至無人維護和技術支援
- 最好按大公司 -> 社群 -> 小公司 -> 個人這樣的出品方順序來選擇
- 選擇口碑較好的,比如 GitHub 星數、使用者數量質量和使用者反饋
- 開源的優先,往往專案有特殊需求可能需要改動原始碼
按照上述思路,推薦以下選擇:
- 客戶端架構:ShardingJDBC
- 代理架構:MyCat 或 Atlas
相容 MySQL 且可水平擴充套件的資料庫
目前也有一些開源資料庫相容 MySQL 協議,如:
但其工業品質和 MySQL 尚有差距,且需要較大的運維投入,如果想將原始的 MySQL 遷移到可水平擴充套件的新資料庫中,可以考慮一些雲資料庫:
NoSQL
在 MySQL 上做 Sharding 是一種戴著鐐銬的跳舞,事實上很多大表本身對 MySQL 這種 RDBMS 的需求並不大,並不要求 ACID,可以考慮將這些表遷移到 NoSQL,徹底解決水平擴充套件問題,例如:
- 日誌類、監控類、統計類資料
- 非結構化或弱結構化資料
- 對事務要求不強,且無太多關聯操作的資料