上面的(http://www.cnblogs.com/guoyuanwei/p/3565088.html)介紹了部署了一個預設的分片叢集,對mongoDB的分片叢集有了大概的認識,到目前為止我們還沒有在叢集上建立其它資料庫,mongoDB的分片是基於集合(表)來進行的,因此要對一個集合分片,必須先使其所在的資料庫支援分片。如何使一個集合分片?如何選擇分片用到的片鍵?平衡器如何使chunks塊在片中遷移?分片的讀寫情況怎麼樣?接下來將探討這些問題。
使集合分片
(1)連線到上面所配置叢集中的mongos例項
> mongo --port 40009
(2)在叢集中建立資料庫eshop和集合users
mongos> use eshop
switched to db eshop
mongos> db.users.insert({userid:1,username:"lili",city:"beijing"})
此時在集合users中只有一條記錄:
{ "_id" : ObjectId("521dcce715ce3967f964c00b"), "userid" : 1, "username" : "lili", "city" : "beijing" }
觀察叢集的狀態資訊,欄位databases會增加一條記錄,其它欄位與初始化的叢集資訊相同:
mongos> sh.status()
databases:
{ "_id" : "eshop", "partitioned" : false, "primary" : "rs0" }
可以看到此時資料庫eshop還沒支援分片,且資料庫中所有未分片的集合將儲存在片rs0中;通過檢視磁碟上的資料檔案,此時會產生eshop.0、eshop.1、eshop.ns三個檔案且位於rs0所對應的資料目錄中,叢集中chunks集合為空,因為現在還沒有對集合users分片。
(3)分片
mongoDB的分片是基於範圍的,也就是說任何一個文件一定位於指定片鍵的某個範圍內,一旦片鍵選擇好後,chunks就會按照片鍵來將一部分documents從邏輯上組合在一起。這裡對users集合選擇"city"欄位作為片鍵來分片,假如現在"city"欄位值有"beijing"、"guangzhou"、"changsha",初始的時候隨機的向叢集中插入包含以上欄位值的文件,此時由於chunks的大小未達到預設的閾值64MB或100000個文件,叢集中應該只有一個chunk,隨著繼續插入文件,超過閾值的chunk會被分割成兩個chunks,最終的chunks和片鍵分佈可能如下表格所示。表格只是大體上描述了分片的情況,實際可能有所變化,其中-∞表示所有鍵值小於"beijing"的文件,∞表示所有鍵值大於"guangzhou"的文件。這裡還要強調一點就是chunks所包含的文件,並不是物理上的包含,它是一種邏輯包含,它只表示帶有片鍵的文件會落在哪個範圍內,而這個範圍的文件對應的chunk位於哪個片是可以查詢到的,後續的讀寫操作就定位到這個片上的具體集合中進行。
開始鍵值 |
結束鍵值 |
所在分片 |
-∞ |
beijing |
rs0 |
beijing |
changsha |
rs1 |
changsha |
guangzhou |
rs0 |
guangzhou |
∞ |
rs1 |
下面繼續通過命令使集合users分片,使集合分片必須先使其所在的資料庫支援分片,如下:
mongos> sh.enableSharding("eshop") //使資料庫支援分片
對已有資料的集合進行分片,必須先在所選擇的片鍵上建立一個索引,如果集合初始時沒有任何資料,則mongoDB會自動在所選擇的的片鍵上建立一個索引。
mongos> db.users.ensureIndex({city:1}) //建立基於片鍵的索引
mongos> sh.shardCollection("eshop.users",{city:1}) //使集合分片
成功執行上面命令後,再次檢視叢集狀態資訊:
mongos> sh.status()
--- Sharding Status ---
sharding version: {
"_id" : 1,
"version" : 3,
"minCompatibleVersion" : 3,
"currentVersion" : 4,
"clusterId" : ObjectId("521b11e0a663075416070c04")
}
shards:
{ "_id" : "rs0", "host" : "rs0/GUO:40000,GUO:40001" }
{ "_id" : "rs1", "host" : "rs1/GUO:40003,GUO:40004" }
databases:
{ "_id" : "admin", "partitioned" : false, "primary" : "config" }
{ "_id" : "eshop", "partitioned" : true, "primary" : "rs0" } //資料庫已支援分片
eshop.users //分片的集合
shard key: { "city" : 1 } //片鍵
chunks: //所有塊資訊
rs0 1 //當前只有1個塊在片rs0上
{ "city" : { "$minKey" : 1 } } -->> { "city" : { "$maxKe
y" : 1 } } on : rs0 { "t" : 1, "i" : 0 } //此塊的包含鍵值範圍是-∞到∞,且在片rs0上,因為此時集合中只有一條記錄,還未進行塊的分割、遷移
(4)繼續插入資料使集合自動分片
為了觀察到集合被分成多個chunk,並分佈在多個片上,繼續插入一些資料進行分析。
> for(var i = 1; i<10000;i++) db.users.insert({userid:i,username:"lili"+i,city:"beijing"})
> for(var i = 0; i<10000;i++) db.users.insert({userid:i,username:"xiaoming"+i,city:"changsha"})
> for(var i = 0; i<10000;i++) db.users.insert({userid:i,username:"xiaoqiang"+i,city:"guangzhou"})
通過以上三次迴圈插入文件後,第一個chunk的大小會超過64MB時,出現chunk分割與遷移的過程。再次觀察叢集的狀態資訊,欄位databases值變為:
databases:
{ "_id" : "admin", "partitioned" : false, "primary" : "config" }
{ "_id" : "eshop", "partitioned" : true, "primary" : "rs0" }
eshop.users
shard key: { "city" : 1 }
chunks:
rs1 1
rs0 2
{ "city" : { "$minKey" : 1 } } -->> { "city" : "beijing"
} on : rs1 { "t" : 2, "i" : 0 } //塊區間
{ "city" : "beijing" } -->> { "city" : "guangzhou" } on
: rs0 { "t" : 2, "i" : 1 } //塊區間
{ "city" : "guangzhou" } -->> { "city" : { "$maxKey" : 1
} } on : rs0 { "t" : 1, "i" : 4 } //塊區間
說明此時叢集中有三個塊,其中在片rs0上有兩個塊,在片rs1上有一個塊,每個塊包含一定區間範圍的文件。為了更加清楚的知道這些塊是如何分割和遷移的,可以檢視changelog集合中的記錄資訊進行分析。
從命令db.changelog.find()輸出內容中可以看到有以下幾步:
第一步:分割大於64MB的塊,原來此塊的片鍵的區間範圍是-∞到∞,分割後區間變為-∞到"beijing"、"beijing"到∞兩個區間。
第二步:隨著繼續插入文件,區間"beijing"到∞所包含的塊的大小超過64MB,此時這個區間又被分割為"beijing"到"guangzhou"、"guangzhou"到∞這兩個區間。
第三步:經過上面的分割,現在相當於有三個區間塊了,這一步做的就是將區間-∞到"beijing"對應的chunk從片rs0遷移到片rs1,最終結果是分片rs0上包含"beijing"到"guangzhou"、"guangzhou"到∞兩個區間的塊,分片rs1上包含區間-∞到"beijing"的塊。
上面迴圈插入文件時還插入了片鍵值為"changsha"的記錄,這個片鍵的記錄應該都位於區間"beijing"到"guangzhou"所對應的chunk上,只不過由於chunk的大小還未達到64MB,所以還未進行分割,如果繼續插入此片鍵的文件,區間可能會被分割為"beijing"到"changsha"、"changsha"到"guangzhou"這兩個區間塊。依次類推,mongoDB就是這樣來實現海量資料的分散式儲存的,同時由於每個片又是由複製集組成,保證了資料的可靠性。