利用索引提高SQL Server資料處理的效率

iSQlServer發表於2009-04-09

原文網址 : http://blog.itpub.net/16436858/viewspace-586884/

在良好的資料庫設計基礎上，能有效地使用索引是SQL Server取得高效能的基礎，SQL Server採用基於代價的優化模型，它對每一個提交的有關表的查詢，決定是否使用索引或用哪一個索引。因為查詢執行的大部分開銷是磁碟I/O，使用索引提高效能的一個主要目標是避免全表掃描，因為全表掃描需要從磁碟上讀表的每一個資料頁，如果有索引指向資料值，則查詢只需讀幾次磁碟就可以了。所以如果建立了合理的索引，優化器就能利用索引加速資料的查詢過程。但是，索引並不總是提高系統的效能，在增、刪、改操作中索引的存在會增加一定的工作量，因此，在適當的地方增加適當的索引並從不合理的地方刪除次優的索引，將有助於優化那些效能較差的SQL Server應用。實踐表明，合理的索引設計是建立在對各種查詢的分析和預測上的，只有正確地使索引與程式結合起來,才能產生最佳的優化方案。本文就SQL Server索引的效能問題進行了一些分析和實踐。

一、聚簇索引(clustered indexes)的使用

聚簇索引是一種對磁碟上實際資料重新組織以按指定的一個或多個列的值排序。由於聚簇索引的索引頁面指標指向資料頁面，所以使用聚簇索引查詢資料幾乎總是比使用非聚簇索引快。每張表只能建一個聚簇索引，並且建聚簇索引需要至少相當該表120%的附加空間，以存放該表的副本和索引中間頁。建立聚簇索引的思想是：

1、大多數表都應該有聚簇索引或使用分割槽來降低對錶尾頁的競爭，在一個高事務的環境中，對最後一頁的封鎖嚴重影響系統的吞吐量。

2、在聚簇索引下，資料在物理上按順序排在資料頁上，重複值也排在一起，因而在那些包含範圍檢查(between、、>=)或使用group by或order by的查詢時，一旦找到具有範圍中第一個鍵值的行，具有後續索引值的行保證物理上毗連在一起而不必進一步搜尋，避免了大範圍掃描，可以大大提高查詢速度。

3、在一個頻繁發生插入操作的表上建立聚簇索引時，不要建在具有單調上升值的列(如IDENTITY)上，否則會經常引起封鎖衝突。

4、在聚簇索引中不要包含經常修改的列，因為碼值修改後，資料行必須移動到新的位置。

5、選擇聚簇索引應基於where子句和連線操作的型別。

聚簇索引的侯選列是：

1、主鍵列,該列在where子句中使用並且插入是隨機的。

2、按範圍存取的列，如pri_order > 100 and pri_order < 200。

3、在group by或order by中使用的列。

4、不經常修改的列。

5、在連線操作中使用的列。

二、非聚簇索引(nonclustered indexes)的使用

SQL Server預設情況下建立的索引是非聚簇索引，由於非聚簇索引不重新組織表中的資料，而是對每一行儲存索引列值並用一個指標指向資料所在的頁面。換句話說非聚簇索引具有在索引結構和資料本身之間的一個額外級。一個表如果沒有聚簇索引時,可有250個非聚簇索引。每個非聚簇索引提供訪問資料的不同排序順序。在建立非聚簇索引時，要權衡索引對查詢速度的加快與降低修改速度之間的利弊。另外，還要考慮這些問題：

1、索引需要使用多少空間。

2、合適的列是否穩定。

3、索引鍵是如何選擇的，掃描效果是否更佳。

4、是否有許多重複值。

對更新頻繁的表來說，表上的非聚簇索引比聚簇索引和根本沒有索引需要更多的額外開銷。對移到新頁的每一行而言，指向該資料的每個非聚簇索引的頁級行也必須更新，有時可能還需要索引頁的分理。從一個頁面刪除資料的程式也會有類似的開銷，另外，刪除程式還必須把資料移到頁面上部，以保證資料的連續性。所以，建立非聚簇索引要非常慎重。非聚簇索引常被用在以下情況：

1、某列常用於集合函式(如Sum,....)。

2、某列常用於join,order by,group by。

3、查尋出的資料不超過表中資料量的20%。

三、覆蓋索引(covering indexes)的使用

覆蓋索引是指那些索引項中包含查尋所需要的全部資訊的非聚簇索引，這種索引之所以比較快也正是因為索引頁中包含了查尋所必須的資料,不需去訪問資料頁。如果非聚簇索引中包含結果資料,那麼它的查詢速度將快於聚簇索引。

但是由於覆蓋索引的索引項比較多,要佔用比較大的空間。而且update操作會引起索引值改變。所以如果潛在的覆蓋查詢並不常用或不太關鍵，則覆蓋索引的增加反而會降低效能。

四、索引的選擇技術

p_detail是住房公積金管理系統中記錄個人明細的表，有890000行，觀察在不同索引下的查詢執行效果，測試在C/S環境下進行，客戶機是IBM PII350(記憶體64M),伺服器是DEC Alpha1000A(記憶體128M),資料庫為SYBASE11.0.3。

1、 select count(*) from p_detail where

op_date>’19990101’ and op_date

19991231’ and pri_surplus1>300

2、 select count(*),sum(pri_surplus1) from p_detail

where op_date>’19990101’ and

pay_month between‘199908’ and’199912’

不建任何索引查詢1 1分15秒

查詢2 1分7秒

在op_date上建非聚簇索引查詢1 57秒

查詢2 57秒

在op_date上建聚簇索引查詢1 <1秒

查詢2 52秒

在pay_month、op_date、pri_surplus1上建索引查詢1 34秒

查詢2 <1秒

在op_date、pay_month、pri_surplus1上建索引查詢1 <1秒

查詢2 <1秒

從以上查詢效果分析，索引的有無，建立方式的不同將會導致不同的查詢效果，選擇什麼樣的索引基於使用者對資料的查詢條件,這些條件體現於where從句和join表示式中。一般來說建立索引的思路是：

(1)主鍵時常作為where子句的條件，應在表的主鍵列上建立聚簇索引，尤其當經常用它作為連線的時候。

(2)有大量重複值且經常有範圍查詢和排序、分組發生的列，或者非常頻繁地被訪問的列，可考慮建立聚簇索引。

(3)經常同時存取多列，且每列都含有重複值可考慮建立複合索引來覆蓋一個或一組查詢，並把查詢引用最頻繁的列作為前導列，如果可能儘量使關鍵查詢形成覆蓋查詢。

(4)如果知道索引鍵的所有值都是唯一的，那麼確保把索引定義成唯一索引。

(5)在一個經常做插入操作的表上建索引時，使用fillfactor(填充因子)來減少頁分裂，同時提高併發度降低死鎖的發生。如果在只讀表上建索引，則可以把fillfactor置為100。

(6)在選擇索引鍵時，設法選擇那些採用小資料型別的列作為鍵以使每個索引頁能夠容納儘可能多的索引鍵和指標，通過這種方式，可使一個查詢必須遍歷的索引頁面降到最小。此外，儘可能地使用整數為鍵值，因為它能夠提供比任何資料型別都快的訪問速度。

五、索引的維護

上面講到,某些不合適的索引影響到SQL Server的效能,隨著應用系統的執行,資料不斷地發生變化,當資料變化達到某一個程度時將會影響到索引的使用。這時需要使用者自己來維護索引。索引的維護包括：

1、重建索引

隨著資料行的插入、刪除和資料頁的分裂，有些索引頁可能只包含幾頁資料，另外應用在執行大塊I/O的時候，重建非聚簇索引可以降低分片，維護大塊I/O的效率。重建索引實際上是重新組織B-樹空間。在下面情況下需要重建索引：

(1)資料和使用模式大幅度變化。

(2)排序的順序發生改變。

(3)要進行大量插入操作或已經完成。

(4)使用大塊I/O的查詢的磁碟讀次數比預料的要多。

(5)由於大量資料修改，使得資料頁和索引頁沒有充分使用而導致空間的使用超出估算。

(6)dbcc檢查出索引有問題。

當重建聚簇索引時，這張表的所有非聚簇索引將被重建。

2、索引統計資訊的更新

當在一個包含資料的表上建立索引的時候，SQL Server會建立分佈資料頁來存放有關索引的兩種統計資訊：分佈表和密度表。優化器利用這個頁來判斷該索引對某個特定查詢是否有用。但這個統計資訊並不動態地重新計算。這意味著，當表的資料改變之後，統計資訊有可能是過時的，從而影響優化器追求最有工作的目標。因此，在下面情況下應該執行update statistics命令：

(1)資料行的插入和刪除修改了資料的分佈。

(2)對用truncate table刪除資料的表上增加資料行。

(3)修改索引列的值。

六、結束語

實踐表明，不恰當的索引不但於事無補，反而會降低系統的執行效能。因為大量的索引在插入、修改和刪除操作時比沒有索引花費更多的系統時間。例如下面情況下建立的索引是不恰當的：

1、在查詢中很少或從不引用的列不會受益於索引，因為索引很少或從來不必搜尋基於這些列的行。

2、只有兩個或三個值的列，如男性和女性(是或否)，從不會從索引中得到好處。

另外，鑑於索引加快了查詢速度，但減慢了資料更新速度的特點。可通過在一個段上建表，而在另一個段上建其非聚簇索引，而這兩段分別在單獨的物理裝置上來改善操作效能。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/16436858/viewspace-586884/，如需轉載，請註明出處，否則將追究法律責任。

SQL Server 資料庫查詢死鎖的處理步驟
2024-03-09
SQLServer資料庫
sql server對於日期的處理
2019-11-18
SQLServer
SQL Server索引 - 非聚集索引
2019-01-08
SQLServer索引
SQL Server 2014的重建索引
2019-02-05
SQLServer索引
Sql Server資料庫類似正規表示式的字元處理問題
2019-02-10
SQLServer資料庫字元
SQL Server 異常程式碼處理
2020-08-14
SQLServer
利用SQL Server Management Studio(SSMS)複製資料庫
2019-01-23
SQLServerSSM資料庫
利用陣列處理批次資料
2024-10-23
陣列
SQL Server 索引結構
2022-02-24
SQLServer索引
SQL Server2008程式堵塞處理方法
2019-01-11
SQLServer
SQL server 特殊字元"u0000"處理
2024-08-27
SQLServer字元
Python利用pandas處理資料與分析
2024-03-25
Python
SQL Server實戰二：建立、修改、複製、刪除資料庫表並加以資料處理
2024-04-26
SQLServer資料庫
最佳化SQL Server索引的技巧
2020-05-21
SQLServer索引
使用SQL-Server分割槽表功能提高資料庫的讀寫效能
2021-02-18
SQLServer資料庫
SQL Server資料庫恢復，SQL Server資料恢復，SQL Server資料誤刪除恢復工具SQLRescue
2023-02-20
SQLServer資料庫資料恢復
效率提升50倍，輕鬆處理大資料
2018-06-21
大資料
大資料時代事業單位利用資料分析提高工作效率
2018-05-15
大資料
利用SQL Profiler處理開銷較大的查詢
2018-03-09
SQL
談談MYSQL索引是如何提高查詢效率的
2021-06-02
MySql索引
.net core 在網路高併發下提高JSON的處理效率
2019-04-11
JSON
在 SQL Server 中使用 Try Catch 處理異常
2022-07-14
SQLServer
SQL Server 2008事件處理系統簡介LS
2022-03-21
SQLServer事件
Mysql如何處理重複資料？讓你的效率更高效
2020-08-04
MySql
利用ASP傳送和接收XML資料的處理方法
2019-04-02
XML
SQL server 修改表資料
2020-11-20
SQLServer
資料庫映象 (SQL Server)
2024-06-08
資料庫SQLServer
SQL Server資料庫安全
2021-04-22
SQLServer資料庫
利用陣列處理批次資料之習題
2024-10-23
陣列
Oracle提高SQL執行效率的三種方法IT
2022-03-21
OracleSQL
提高資料庫工作效率，多功能SQL資料庫編輯器RazorSQL值得一試！
2023-12-15
資料庫SQL
SQL優化之利用索引排序
2019-07-10
SQL優化索引排序
如何利用代理ip提高爬蟲的工作效率
2021-09-11
爬蟲
SQL Server2014 雜湊索引原理
2021-09-09
SQLServer索引
【SQL】Oracle SQL處理的流程
2021-09-07
SQLOracle
利用實體bean物件批量資料傳輸處理
2021-05-20
Bean物件
sql server 索引闡述系列七索引填充因子與碎片
2021-09-09
SQLServer索引
SQL Server 列儲存索引第四篇：實時運營資料分析
2020-11-01
SQLServer索引
Blazor使用sql server 資料庫
2024-03-10
BlazorSQLServer資料庫

利用索引提高SQL Server資料處理的效率

相關文章