為什麼要分庫分表？

Java架構師課代表發表於2020-11-20

原文網址 : https://blog.csdn.net/bieber007/article/details/109854257

隨著近些年資訊化大躍進，各行各業無紙化辦公產生了大量的資料，而越來越多的資料存入了資料庫中。當使用MySQL資料庫的時候，單表超出了2000萬資料量就會出現效能上的分水嶺。

並且物理伺服器的CPU、記憶體、儲存、連線數等資源有限，某個時段大量連線同時執行操作，會導致資料庫在處理上遇到效能瓶頸。

為了解決這個問題，行業先驅門充分發揚了分而治之的思想，對大表進行分割，然後實施更好的控制和管理，同時使用多臺機器的CPU、記憶體、儲存，提供更好的效能。而分而治之則有兩種方式：垂直拆分和水平拆分。

垂直拆分

垂直拆分分為垂直分庫和垂直分表。先說說垂直分庫。垂直分庫其實是一種簡單邏輯分割。比如我們的資料庫中有商品表Products、還有對訂單表Orders，還有積分表Scores。接下來我們就可以建立三個資料庫，一個資料庫存放商品，一個資料庫存放訂單，一個資料庫存放積分。如下圖所示：

垂直分庫有一個優點，他能夠根據業務場景進行孵化，比如某一單一場景只用到某2-3張表，基本上應用和資料庫可以拆分出來做成相應的服務。

再來說說垂直分表，比較適用於那種欄位比較多的表，假設我們一張表有100個欄位，我們分析了一下當前業務執行的SQL語句，有20個欄位是經常使用的，而另外80個欄位使用比較少。

這樣我們就可以把20個欄位放在主表裡面，我們在建立一個輔助表，存放另外80個欄位。當然主表和輔助表都是有主鍵的。他們通過主鍵進行關聯合並，就可以湊成100個欄位的表。

垂直分表可以解決跨頁的問題。在Oracle中叫行連結。怎麼理解呢？就是你欄位少的情況下，原本一行資料只需要存在一個頁裡面就行了，但是欄位多的情況就存不下了，就需要跨頁。

這樣就會造成額外定址，造成效能上的開銷。另外將這麼長的一行資料載到記憶體中，往往是幾個頁面，結果我們們經常只訪問其中的幾個欄位，對記憶體也是一個極大的開銷。所以為了讓記憶體快取更多資料，減少磁碟I/O，垂直分表就是很好的手段。

總體來說：垂直拆分有以下優點：

跟隨業務進行分割，和最近流行的微服務概念相似，方便解耦之後的管理及擴充套件。
高併發的場景下，垂直拆分使用多臺伺服器的CPU、I/O、記憶體能提升效能，同時對單機資料庫連線數、一些資源限制也得到了提升。
能實現冷熱資料的分離。

垂直拆分的缺點：

部分業務表無法join，應用層需要很大的改造，只能通過聚合的方式來實現。增加了開發的難度。
當單庫中的表資料量增大的時候依然沒有得到有效的解決。
分散式事務也是一個難題。

水平拆分

當某張表資料量達到一定的程度的時候，前面曾說過MySQL單表出現2000萬以上資料就會出現效能上的分水嶺。此時發現沒有辦法根據業務規則再進行拆分了，就會導致單庫上的讀寫效能出現瓶頸。此時就只能進行水平拆分了。

水平拆分又分為庫內分表和分庫分表。先說說庫內分表。假設當我們的Orders表達到了5000萬行記錄的時候，非常影響資料庫的讀寫效率，怎麼辦呢？

我們可以考慮按照訂單編號的order_id進行rang分割槽,就是把訂單編號在1-1000萬的放在order1表中，將編號在1000萬-2000萬的放在order2中，以此類推，每個表中存放1000萬資料。如下圖所示：

雖然我們可以通過庫內分表把單表的容量固定在1000萬，但是這些表的資料仍然存放在一個庫內，使用的是該主機的CPU、IO、記憶體。

單庫的連線數也有限制。並不能完全的降低系統的壓力。此時，我們就要考慮另外一種技術叫分庫分表。

分庫分表在庫內分表的基礎上，將分的表挪動到不同的主機和資料庫上。可以充分的使用其他主機的CPU、記憶體和IO資源。並且分庫之後，單庫的連線數限制也不在成為瓶頸。

但是“成也蕭何敗也蕭何”，如果你執行一個掃描不帶分片鍵，則需要在每個庫上查一遍。

剛剛我們按照order_id分成了5個庫，但是我們查詢是name='AAA'的條件並且不帶order_id欄位時，它並不知道在哪個分片上查，則會建立5個連線，然後每個庫都檢索一遍。這種廣播查詢則會造成連線數增多。

因為它需要在每個庫上都創立連線。如果是高併發的系統，執行這種廣播查詢，系統的thread很快就會告警。

總體來說：水平拆分的優點有以下：

水平擴充套件能無線擴充套件。不存在某個庫某個表過大的情況。
能夠較好的應對高併發，同時可以將熱點資料打散。
應用側的改動較小，不需要根據業務來拆分。

水平拆分的缺點：

路由是個問題，需要增加一層路由的計算，而且像前面說的一樣，不帶分片鍵查詢會產生廣播SQL。
跨庫join的效能比較差。
需要處理分散式事務的一致性問題。

一起使用

當前我們的系統，垂直拆分和水平拆分都在使用，垂直拆分主要是做業務上的分割，把業務的各個子系統都規劃好，能解耦就解耦。而垂直拆分之後。我們再做水平分庫分表。通過取模演算法將大表資料拆到若干個庫中。

邏輯庫和物理庫

介紹了上述的分庫分表，我們有必要說一下幾個概念，一個是邏輯庫和物理庫的概念。我們還是拿水平拆分中的分庫分表來說。我們在物理層面，將一個庫的資料分割到了5個資料庫中。這5個資料庫就是物理庫，而它們對上層應用的展現則是一個庫。這個對上層展現的庫就叫邏輯庫。邏輯庫對應用層是透明的。應用不需要了解底層的情況，直接使用就行了。

還是拿水平拆分中的分庫分表來說，orders表總共被分成了5份，分別在底層是orders_1~5。這底層的5個表就是物理表。但是對應用層面來說，只有orders表。這就是邏輯表。

總結：這一篇主要是講述一些分庫分表之後的概念。需要加深一些理解，因為我們的專案也才是剛剛開始拆分，所以有寫的不對的地方還希望提出意見指正。

談談為什麼要分庫分表？
2024-05-16
好好的系統，為什麼要分庫分表？
2022-11-25
Docker 映象倉庫為什麼要分庫分許可權？
2020-01-19
Docker
oracle分表效率,資料庫分庫分表是什麼，什麼情況下需要用分庫分表
2022-09-12
Oracle資料庫
資料庫怎麼分庫分表
2019-11-12
資料庫
資料倉儲為什麼要進行分層建設？怎麼分？
2024-03-13
分庫分表系列：分庫分表的前世今生
2022-03-19
分庫分表
2024-08-20
分庫分表，可能真的要退出歷史舞臺了！
2022-12-28
你分庫分表的姿勢對麼？——詳談水平分庫分表
2021-10-26
為什麼要前後端分離？有什麼優缺點
2022-12-05
後端
分庫分表注意
2019-03-18
[Mysql]分庫分表
2024-07-23
MySql
“分庫分表” ？選型和流程要慎重，否則會失控
2019-03-03
你們要的MyCat實現MySQL分庫分表來了
2020-08-17
MySql
“分庫分表" ？選型和流程要慎重，否則會失控
2019-07-08
.NET ORM 分表分庫【到底】怎麼做？
2020-08-30
ORM
分庫分表系列: 到底該怎麼拆分？
2022-03-26
徹底搞清MySQL分庫分表（垂直分庫，垂直分表，水平分庫，水平分表）
2021-02-01
MySql
Abp VNext分表分庫，拒絕手動,我們要happy coding
2021-10-26
APP
基因法分庫分表
2024-03-23
Mycat分庫分表（一）
2020-11-15
常用分庫分表方案
2021-10-26
mycat配置分庫分表
2021-06-29
Mycat分庫分表配置
2021-02-04
分庫分表總結
2020-12-09
[資料庫][分庫分表]分庫分表之後，id主鍵如何處理
2019-02-19
資料庫
徹底搞清分庫分表（垂直分庫，垂直分表，水平分庫，水平分表）
2020-10-27
為什麼分庫分表使用2的N次方一個位元組用兩位16進位制
2019-02-19
MyCat分庫分表、讀寫分離
2019-02-25
讀寫分離 & 分庫分表 & 深度分頁
2024-03-09
百億級資料分庫分表後怎麼分頁查詢？
2022-12-05
shrding_jdbc分表分庫
2021-09-09
JDBC
輕鬆理解分庫分表
2021-05-17
分庫分表插入資料
2020-12-09
分庫分表後的分頁查詢
2021-04-25
資料庫分庫分表的總結
2019-02-16
資料庫
分庫分表(6)--- SpringBoot+ShardingSphere實現分表+ 讀寫分離
2024-08-05
Spring Boot