從效能的角度談SQL Server聚集索引鍵的選擇

宋沄劍發表於2015-12-21

簡介

在SQL Server中，資料是按頁進行存放的。而為表加上聚集索引後，SQL Server對於資料的查詢就是按照聚集索引的列作為關鍵字進行了。因此對於聚集索引的選擇對效能的影響就變得十分重要了。本文從旨在從效能的角度來談聚集索引的選擇，但這僅僅是從效能方面考慮。對於有特殊業務要求的表，則需要按實際情況進行選擇。

聚集索引所在的列或列的組合最好是唯一的

這個原因需要從資料的存放原理來談。在SQL Server中，資料的存放方式並不是以行(Row)為單位，而是以頁為單位。因此，在查詢資料時，SQL Server查詢的最小單位實際上是頁。也就是說即使你只查詢一行很小的資料，SQL Server也會將整個頁查詢出來，放到緩衝池中。

每一個頁的大小是8K。每個頁都會有一個對於SQL Server來說的實體地址。這個地址的寫法是檔案號：頁號(理解檔案號需要你對檔案和檔案組有所瞭解).比如第一個檔案的第50頁。則頁號為1：50。當表沒有聚集索引時，表中的資料頁是以堆(Heap)進行存放的,在頁的基礎上，SQL Server通過一個額外的行號來唯一確定每一行，這也就是傳說中的RID。RID是檔案號:頁號：行號來進行表示的，假設這一行在前面所說的頁中的第5行，則RID表示為1:50:5，如圖1所示。

圖1.RID的示例

從RID的概念來看，RID不僅僅是SQL Server唯一確定每一行的依據，也是存放行的存放位置。當頁通過堆（Heap）進行組織時，頁很少進行移動。

而當表上建立聚集索引時，表中的頁按照B樹進行組織。此時，SQL Server尋找行不再是按RID進行查詢，轉而使用了關鍵字,也就是聚集索引的列作為關鍵字進行查詢。假設圖1的表中，我們設定DepartmentID列作為聚集索引列。則B樹的非葉子節點的行中只包含了DepartmentID和指向下一層節點的書籤(BookMark)。

而當我們建立的聚集索引的值不唯一時，SQL Server則無法僅僅通過聚集索引列（也就是關鍵字）唯一確定一行。此時，為了實現對每一行的唯一區分，則需要SQL Server為相同值的聚集索引列生成一個額外的標識資訊進行區分，這也就是所謂的uniquifiers。而使用了uniquifier後，對效能產生的影響分為如下兩部分：

SQL Server必須在插入或者更新時對現在資料進行判斷是否和現有的鍵重複，如果重複，則需要生成uniquifier,這個是一筆額外開銷。
因為需要對相同值的鍵新增額外的uniquifier來區分，因此鍵的大小被額外的增加了。因此無論是葉子節點和非葉子節點，都需要更多的頁進行儲存。從而還影響到了非聚集索引，使得非聚集索引的書籤列變大，從而使得非聚集索引也需要更多的頁進行儲存。

下面我們進行測試，建立一個測試表，建立聚集索引。插入10萬條測試資料，其中每2條一重複，如圖2所示。