【轉載】原文見http://zhengdl126.iteye.com/blog/419850

第1章引言

隨著網際網路應用的廣泛普及，海量資料的儲存和訪問成為了系統設計的瓶頸問題。對於一個大型的網際網路應用，每天幾十億的PV無疑對資料庫造成了相當高的負載。對於系統的穩定性和擴充套件性造成了極大的問題。透過資料切分來提高網站效能，橫向擴充套件資料層已經成為架構研發人員首選的方式。水平切分資料庫，可以降低單臺機器的負載，同時最大限度的降低了了當機造成的損失。透過負載均衡策略，有效的降低了單臺機器的訪問負載，降低了當機的可能性；透過叢集方案，解決了資料庫當機帶來的單點資料庫不能訪問的問題；透過讀寫分離策略更是最大限度了提高了應用中讀取（Read）資料的速度和併發量。目前國內的大型網際網路應用中，大量的採用了這樣的資料切分方案，Taobao,Alibaba,Tencent，它們大都實現了自己的分散式資料訪問層（DDAL）。以實現方式和實現的層次來劃分，大概分為兩個層次（Java應用為例）：JDBC層的封裝，ORM框架層的實現。就JDBC層的直接封裝而言，現在國內發展較好的一個專案是被稱作“變形蟲”(Amoeba)的專案，由阿里集團的研究院開發，現在仍然處於測試階段（beta版），其執行效率和生產時效性有待考究。就ORM框架層的實現而言，比如Taobao的基於ibatis和Spring的的分散式資料訪問層，已有多年的應用，執行效率和生產實效性得到了開發人員和使用者的肯定。本文就是以ORM框架層為基礎而實現的分散式資料訪問層。本課題的難點在於分庫後，路由規則的制定和選擇以及後期的擴充套件性，比如：如何做到用最少的資料遷移量，達到擴充資料庫容量（增加機器節點）的目的。核心問題將圍繞資料庫分庫分表的路由規則和負載均衡策略展開。

第2章基本原理和概念

2.1基本原理：

人類認知問題的過程總是這樣的：what（什麼）-?why(為什麼)-?how(怎麼

做)，接下來，本文將就這三個問題展開討論和研究：

2.1.1什麼是資料切分

"Shard" 這個詞英文的意思是"碎片"，而作為資料庫相關的技術用語，似乎最早見於大型多人線上角色扮演遊戲中。"Sharding" 姑且稱之為"分片"。Sharding 不是一門新技術，而是一個相對簡樸的軟體理念。眾所周知，MySQL 5 之後才有了資料表分割槽功能，那麼在此之前，很多 MySQL 的潛在使用者都對 MySQL 的擴充套件性有所顧慮，而是否具備分割槽功能就成了衡量一個資料庫可擴充套件性與否的一個關鍵指標(當然不是唯一指標)。資料庫擴充套件性是一個永恆的話題，MySQL 的推廣者經常會被問到：如在單一資料庫上處理應用資料捉襟見肘而需要進行分割槽化之類的處理，是如何辦到的呢? 答案是：Sharding。 Sharding 不是一個某個特定資料庫軟體附屬的功能，而是在具體技術細節之上的抽象處理，是水平擴充套件(Scale Out，亦或橫向擴充套件、向外擴充套件)的解決方案，其主要目的是為突破單節點資料庫伺服器的 I/O 能力限制，解決資料庫擴充套件性問題。

透過一系列的切分規則將資料水平分佈到不同的DB或table中，在透過相應的DB路由或者 table路由規則找到需要查詢的具體的DB或者table，以進行Query操作。這裡所說的“sharding”通常是指“水平切分”，這也是本文討論的重點。具體將有什麼樣的切分方式呢和路由方式呢？行文至此，讀者難免有所疑問，接下來舉個簡單的例子：我們針對一個Blog應用中的日誌來說明，比如日誌文章（article）表有如下欄位：
artic_id(int), titile(varchar(128)) ,content(varchar(1014)),user_id(int)

面對這樣的一個表，我們怎樣切分呢？怎樣將這樣的資料分佈到不同的資料庫中的表中去呢？其實分析blog的應用，我們不難得出這樣的結論：blog的應用中，使用者分為兩種：瀏覽者和blog的主人。瀏覽者瀏覽某個blog，實際上是在一個特定的使用者的blog下進行瀏覽的，而blog的主人管理自己的blog，也同樣是在特定的使用者blog下進行操作的（在自己的空間下）。所謂的特定的使用者，用資料庫的欄位表示就是“user_id”。就是這個“user_id”，它就是我們需要的分庫的依據和規則的基礎。我們可以這樣做，將user_id為 1～10000的所有的文章資訊放入DB1中的article表中，將user_id為10001～20000的所有文章資訊放入DB2中的 article表中，以此類推，一直到DBn。這樣一來，文章資料就很自然的被分到了各個資料庫中，達到了資料切分的目的。接下來要解決的問題就是怎樣找到具體的資料庫呢？其實問題也是簡單明顯的，既然分庫的時候我們用到了區分欄位user_id，那麼很自然，資料庫路由的過程當然還是少不了 user_id的。考慮一下我們剛才呈現的blog應用，不管是訪問別人的blog還是管理自己的blog，總之我都要知道這個blog的使用者是誰吧，也就是我們知道了這個blog的user_id，就利用這個user_id，利用分庫時候的規則，反過來定位具體的資料庫，比如user_id是234，利用該才的規則，就應該定位到DB1，假如user_id是12343，利用該才的規則，就應該定位到DB2。以此類推，利用分庫的規則，反向的路由到具體的DB，這個過程我們稱之為“DB路由”。

當然考慮到資料切分的DB設計必然是非常規，不正統的DB設計。那麼什麼樣的DB設計是正統的DB設計呢？

我們平常規規矩矩用的基本都是。平常我們會自覺的按照正規化來設計我們的資料庫，負載高點可能考慮使用相關的Replication機制來提高讀寫的吞吐和效能，這可能已經可以滿足很多需求，但這套機制自身的缺陷還是比較顯而易見的（下文會提及）。上面提到的“自覺的按照正規化設計”。考慮到資料切分的DB設計，將違背這個通常的規矩和約束，為了切分，我們不得不在資料庫的表中出現冗餘欄位，用作區分欄位或者叫做分庫的標記欄位，比如上面的article的例子中的user_id這樣的欄位（當然，剛才的例子並沒有很好的體現出user_id的冗餘性，因為user_id這個欄位即使就是不分庫，也是要出現的，算是我們撿了便宜吧）。當然冗餘欄位的出現並不只是在分庫的場景下才出現的，在很多大型應用中，冗餘也是必須的，這個涉及到高效DB的設計，本文不再贅述。

2.1.2為什麼要資料切分

上面對什麼是資料切分做了個概要的描述和解釋，讀者可能會疑問，為什麼需要資料切分呢？像 Oracle這樣成熟穩定的資料庫，足以支撐海量資料的儲存與查詢了？為什麼還需要資料切片呢？的確，Oracle的DB確實很成熟很穩定，但是高昂的使用費用和高階的硬體支撐不是每一個公司能支付的起的。試想一下一年幾千萬的使用費用和動輒上千萬元的小型機作為硬體支撐，這是一般公司能支付的起的嗎？即使就是能支付的起，假如有更好的方案，有更廉價且水平擴充套件效能更好的方案，我們為什麼不選擇呢？

但是，事情總是不盡人意。平常我們會自覺的按照正規化來設計我們的資料庫，負載高點可能考慮使用相關的Replication機制來提高讀寫的吞吐和效能，這可能已經可以滿足很多需求，但這套機制自身的缺陷還是比較顯而易見的。首先它的有效很依賴於讀操作的比例，Master往往會成為瓶頸所在，寫操作需要順序排隊來執行，過載的話Master首先扛不住，Slaves的資料同步的延遲也可能比較大，而且會大大耗費CPU的計算能力，因為write操作在Master上執行以後還是需要在每臺slave機器上都跑一次。這時候 Sharding可能會成為雞肋了。 Replication搞不定，那麼為什麼Sharding可以工作呢？道理很簡單，因為它可以很好的擴充套件。我們知道每臺機器無論配置多麼好它都有自身的物理上限，所以當我們應用已經能觸及或遠遠超出單臺機器的某個上限的時候，我們惟有尋找別的機器的幫助或者繼續升級的我們的硬體，但常見的方案還是橫向擴展, 透過新增更多的機器來共同承擔壓力。我們還得考慮當我們的業務邏輯不斷增長，我們的機器能不能透過線性增長就能滿足需求？Sharding可以輕鬆的將計算，儲存，I/O並行分發到多臺機器上，這樣可以充分利用多臺機器各種處理能力，同時可以避免單點失敗，提供系統的可用性，進行很好的錯誤隔離。

綜合以上因素，資料切分是很有必要的，且我們在此討論的資料切分也是將MySql作為背景的。基於成本的考慮，很多公司也選擇了Free且Open的MySql。對MySql有所瞭解的開發人員可能會知道，MySQL 5 之後才有了資料表分割槽功能，那麼在此之前，很多 MySQL 的潛在使用者都對 MySQL 的擴充套件性有所顧慮，而是否具備分割槽功能就成了衡量一個資料庫可擴充套件性與否的一個關鍵指標(當然不是唯一指標)。資料庫擴充套件性是一個永恆的話題，MySQL 的推廣者經常會被問到：如在單一資料庫上處理應用資料捉襟見肘而需要進行分割槽化之類的處理，是如何辦到的呢? 答案也是Sharding，也就是我們所說的資料切分方案。

我們用免費的MySQL和廉價的Server甚至是PC做叢集，達到小型機+大型商業DB的效果，減少大量的資金投入，降低運營成本，何樂而不為呢？所以，我們選擇Sharding，擁抱Sharding。

2.1.3怎麼做到資料切分

說到資料切分，再次我們講對資料切分的方法和形式進行比較詳細的闡述和說明。

資料切分可以是物理上的，對資料透過一系列的切分規則將資料分佈到不同的DB伺服器上，透過路由規則路由訪問特定的資料庫，這樣一來每次訪問面對的就不是單臺伺服器了，而是N臺伺服器，這樣就可以降低單臺機器的負載壓力。

數據切分也可以是資料庫內的，對資料透過一系列的切分規則，將資料分佈到一個資料庫的不同表中，比如將article分為article_001,article_002等子表，若干個子表水平拼合有組成了邏輯上一個完整的article表，這樣做的目的其實也是很簡單的。舉個例子說明，比如article表中現在有5000w條資料，此時我們需要在這個表中增加（insert）一條新的數據，insert完畢後，資料庫會針對這張表重新建立索引，5000w行資料建立索引的系統開銷還是不容忽視的。但是反過來，假如我們將這個表分成100 個table呢，從article_001一直到article_100，5000w行資料平均下來，每個子表裡邊就只有50萬行資料，這時候我們向一張只有50w行資料的table中insert資料後建立索引的時間就會呈數量級的下降，極大了提高了DB的執行時效率，提高了DB的併發量。當然分表的好處還不止這些，還有諸如寫操作的鎖操作等，都會帶來很多顯然的好處。

綜上，分庫降低了單點機器的負載；分表，提高了資料操作的效率，尤其是Write操作的效率。 行文至此我們依然沒有涉及到如何切分的問題。接下來，我們將對切分規則進行詳盡的闡述和說明。

上文中提到，要想做到資料的水平切分，在每一個表中都要有相冗餘字元作為切分依據和標記欄位，通常的應用中我們選用user_id作為區分欄位，基於此就有如下三種分庫的方式和規則：（當然還可以有其他的方式）

按號段分：

(1) user_id為區分，1～1000的對應DB1，1001～2000的對應DB2，以此類推；

優點：可部分遷移

缺點：資料分佈不均

(2)hash取模分：

對user_id進行hash（或者如果user_id是數值型的話直接使用user_id 的值也可），然後用一個特定的數字，比如應用中需要將一個資料庫切分成4個資料庫的話，我們就用4這個數字對user_id的hash值進行取模運算，也就是user_id%4,這樣的話每次運算就有四種可能：結果為1的時候對應DB1；結果為2的時候對應DB2；結果為3的時候對應DB3；結果為0的時候對應DB4，這樣一來就非常均勻的將資料分配到4個DB中。

優點：資料分佈均勻

缺點：資料遷移的時候麻煩，不能按照機器效能分攤資料

(3)在認證庫中儲存資料庫配置

就是建立一個DB，這個DB單獨儲存user_id到DB的對映關係，每次訪問資料庫的時候都要先查詢一次這個資料庫，以得到具體的DB資訊，然後才能進行我們需要的查詢操作。

優點：靈活性強，一對一關係

缺點：每次查詢之前都要多一次查詢，效能大打折扣

以上就是通常的開發中我們選擇的三種方式，有些複雜的專案中可能會混合使用這三種方式。 透過上面的描述，我們對分庫的規則也有了簡單的認識和了解。當然還會有更好更完善的分庫方式，還需要我們不斷的探索和發現。

第3章本課題研究的基本輪廓

上面的文字，我們按照人類認知事物的規律，what?why?how這樣的方式闡述了資料庫切分的一些概念和意義以及對一些常規的切分規則做了概要的介紹。本課題所討論的分佈資料層並不僅僅如此，它是一個完整的資料層解決方案，它到底是什麼樣的呢？接下來的文字，我將詳細闡述本研究課題的完整思想和實現方式。

分散式資料方案提供功能如下：

（1）提供分庫規則和路由規則（RouteRule簡稱RR），將上面的說明中提到的三中切分規則直接內嵌入本系統，具體的嵌入方式在接下來的內容中進行詳細的說明和論述；

（2）引入叢集（Group）的概念，保證資料的高可用性；

（3）引入負載均衡策略（LoadBalancePolicy簡稱LB）；

（4）引入叢集節點可用性探測機制，對單點機器的可用性進行定時的偵測，以保證LB策略的正確實施，以確保系統的高度穩定性；

（5）引入讀/寫分離，提高資料的查詢速度；

僅僅是分庫分表的資料層設計也是不夠完善的，當某個節點上的DB伺服器出現了當機的情況的時候，會是什麼樣的呢？是的，我們採用了資料庫切分方案，也就是說有N太機器組成了一個完整的DB ，如果有一臺機器當機的話，也僅僅是一個DB的N分之一的資料不能訪問而已，這是我們能接受的，起碼比切分之前的情況好很多了，總不至於整個DB都不能訪問。一般的應用中，這樣的機器故障導致的資料無法訪問是可以接受的，假設我們的系統是一個高併發的電子商務網站呢？單節點機器當機帶來的經濟損失是非常嚴重的。也就是說，現在我們這樣的方案還是存在問題的，容錯效能是經不起考驗的。當然了，問題總是有解決方案的。我們引入叢集的概念，在此我稱之為Group，也就是每一個分庫的節點我們引入多臺機器，每臺機器保存的資料是一樣的，一般情況下這多臺機器分攤負載，當出現當機情況，負載均衡器將分配負載給這臺當機的機器。這樣一來，

就解決了容錯性的問題。所以我們引入了叢集的概念，並將其內嵌入我們的框架中，成為框架的一部分。

如上圖所示，整個資料層有Group1，Group2，Group3三個叢集組成，這三個集群就是資料水平切分的結果，當然這三個叢集也就組成了一個包含完整資料的DB。每一個Group包括1個Master（當然Master也可以是多個）和 N個Slave，這些Master和Slave的資料是一致的。比如Group1中的一個slave發生了當機現象，那麼還有兩個slave是可以用的，這樣的模型總是不會造成某部分資料不能訪問的問題，除非整個 Group裡的機器全部宕掉，但是考慮到這樣的事情發生的機率非常小（除非是斷電了，否則不易發生吧）。

在沒有引入叢集以前，我們的一次查詢的過程大致如下：請求資料層，並傳遞必要的分庫區分欄位（通常情況下是user_id）?資料層根據區分欄位Route到具體的DB?在這個確定的DB內進行資料操作。這是沒有引入叢集的情況，當時引入叢集會是什麼樣子的呢？看圖一即可得知，我們的路由器上規則和策略其實只能路由到具體的Group，也就是隻能路由到一個虛擬的Group，這個Group並不是某個特定的物理伺服器。接下來需要做的工作就是找到具體的物理的DB伺服器，以進行具體的資料操作。基於這個環節的需求，我們引入了負載均衡器的概念（LB）。負載均衡器的職責就是定位到一臺具體的DB伺服器。具體的規則如下：負載均衡器會分析當前sql的讀寫特性，如果是寫操作或者是要求實時性很強的操作的話，直接將查詢負載分到Master，如果是讀操作則透過負載均衡策略分配一個Slave。我們的負載均衡器的主要研究放向也就是負載分發策略，通常情況下負載均衡包括隨機負載均衡和加權負載均衡。隨機負載均衡很好理解，就是從N個Slave中隨機選取一個Slave。這樣的隨機負載均衡是不考慮機器效能的，它預設為每臺機器的效能是一樣的。假如真實的情況是這樣的，這樣做也是無可厚非的。假如實際情況並非如此呢？每個Slave的機器物理效能和配置不一樣的情況，再使用隨機的不考慮效能的負載均衡，是非常不科學的，這樣一來會給機器效能差的機器帶來不必要的高負載，甚至帶來當機的危險，同時高性能的資料庫伺服器也不能充分發揮其物理效能。基於此考慮從，我們引入了加權負載均衡，也就是在我們的系統內部透過一定的介面，可以給每臺DB伺服器分配一個權值，然後再執行時LB根據權值在叢集中的比重，分配一定比例的負載給該DB伺服器。當然這樣的概念的引入，無疑增大了系統的複雜性和可維護性。有得必有失，我們也沒有辦法逃過的。

有了分庫，有了叢集，有了負載均衡器，是不是就萬事大吉了呢？ 事情遠沒有我們想象的那麼簡單。雖然有了這些東西，基本上能保證我們的資料層可以承受很大的壓力 ，但是這樣的設計並不能完全規避資料庫當機的危害。假如Group1中的slave2 當機了，那麼系統的LB並不能得知，這樣的話其實是很危險的，因為LB不知道，它還會以為slave2為可用狀態，所以還是會給slave2分配負載。這樣一來，問題就出來了，客戶端很自然的就會發生資料操作失敗的錯誤或者異常。這樣是非常不友好的！怎樣解決這樣的問題呢？我們引入集群節點的可用性探測機制，或者是可用性的資料推送機制。這兩種機制有什麼不同呢？首先說探測機制吧，顧名思義，探測即使，就是我的資料層客戶端，不定時對叢集中各個資料庫進行可用性的嘗試，實現原理就是嘗試性連結，或者資料庫埠的嘗試性訪問，都可以做到，當然也可以用JDBC嘗試性連結，利用Java的Exception機制進行可用性的判斷，具體的會在後面的文字中提到。那資料推送機制又是什麼呢？其實這個就要放在現實的應用場景中來討論這個問題了，一般情況下應用的DB 資料庫當機的話我相信DBA肯定是知道的，這個時候DBA手動的將資料庫的當前狀態透過程式的方式推送到客戶端，也就是分散式資料層的應用端，這個時候在更新一個本地的DB狀態的列表。並告知LB，這個資料庫節點不能使用，請不要給它分配負載。一個是主動的監聽機制，一個是被動的被告知的機制。兩者各有所長。但是都可以達到同樣的效果。這樣一來剛才假設的問題就不會發生了，即使就是發生了，那麼發生的機率也會降到最低。

上面的文字中提到的Master和Slave ，我們並沒有做太多深入的講解。如圖一所示，一個Group由1個Master和N個Slave組成。為什麼這麼做呢？其中Master負責寫操作的負載，也就是說一切寫的操作都在Master上進行，而讀的操作則分攤到Slave上進行。這樣一來的可以大大提高讀取的效率。在一般的網際網路應用中，經過一些資料調查得出結論，讀/寫的比例大概在 10：1左右 ，也就是說大量的資料操作是集中在讀的操作，這也就是為什麼我們會有多個Slave的原因。但是為什麼要分離讀和寫呢？熟悉DB的研發人員都知道，寫操作涉及到鎖的問題，不管是行鎖還是表鎖還是塊鎖，都是比較降低系統執行效率的事情。我們這樣的分離是把寫操作集中在一個節點上，而讀操作其其他的N個節點上進行，從另一個方面有效的提高了讀的效率，保證了系統的高可用性。讀寫分離也會引入新的問題，比如我的Master上的資料怎樣和叢集中其他的Slave機器保持資料的同步和一致呢?這個是我們不需要過多的關注的問題，MySql的Proxy機制可以幫助我們做到這點，由於Proxy機制與本課題相關性不是太強，

在這裡不做詳細介紹。

綜上所述，本課題中所研究的分散式資料層的大體功能就是如此。以上是對基本原理的一些討論和闡述。接下來就係統設計層面，進行深入的剖析和研究。

第4章系統設計

4.1系統實現層面的選擇

在引言部分中提到，該系統的實現層面有兩種選擇，一種是基於JDBC層面上的選擇，一種是基於現有資料持久層框架層面上的選擇，比如Hibernate，ibatis。兩種層面各有長處，也各有不足之處。基於JDBC層面上的系統實現，系統開發難度和後期的使用難度都將大大提高。大大增加了系統的開發費用和維護費用。本課題的定位是在成型的ibatis持久層框架的基礎上進行上層的封裝，而不是對ibatis原始碼的直接修改，這樣一來使本系統不會對現有框架有太多的侵入性，從而也增加了使用的靈活性。之所以選擇ibatis，原因如下：

（1）ibatis的學習成本非常低，熟練的Java Programmer可在非常的短時間內熟練使用ibatis；

（2）ibatis是輕量級的ORM，只是簡單的完成了RO，OR的對映，其查詢語句也是通過配置檔案sql-map.xml檔案在原生sql的層面進行簡單的配置，也就是說我們沒有引入諸如Hibernate那樣的HQL的概念，從而增強了 sql的可控性，優秀的DBA可以很好的從sql的層面對sql進行最佳化，使資料層的應用有很強的可控性。Hibernate雖然很強大，但是由於 Hibernate是OR的一個重型封裝，且引入HQL的概念，不便於DBA團隊對sql語句的控制和效能的調優。

基於以上兩點理由，本課題在ORM的產品的選擇上選擇了易學易用且輕量級的持久層框架ibatis。下面的討論也都是特定於ibatis的基礎上的討論。

4.2其他開源框架的選擇

在一些大型的Java應用中，我們通常會採用Spring這樣的開源框架，尤其是 IoC（DI）這部分，有效的幫助開發人員管理物件的依賴關係和層次，降低系統各層次之間的實體耦合。Spring的優點和用處我相信這是開發人員眾所周知的，在此不再贅述。本課題的資料層也將採用Spring做為IoC（DI）的框架。

4.3系統開發技術和工具介紹

開發語言：Java JDK1.5

整合開發環境：Eclipse 3.3.4

Web環境下測試伺服器：JBoss 4.2

構建工具：淘寶自行研發的構建工具Antx（類似於Maven），當然也可以用Maven

依賴的開源Jar：Spring2.0，ibaits，commons-configuration(讀取配置檔案)，log4j，junit等。

第5章系統分析（待續。。）

MySQL水平切分

相關文章