MYSQL索引及高效能索引策略

Brewin發表於2020-09-11

索引是一種特殊的資料庫結構,由資料表中的一列或多列組合而成,可以用來快速查詢資料表中有某一特定值的記錄。

索引可以很大程度上提高資料庫的查詢速度。

在沒有索引的時,我們根據id查詢一條資料,資料庫系統將進行全表掃描,逐行遍歷,讀取每條記錄的所有資訊進行匹配,直到找到符合的目標資料。這種情況下資料庫的資料量和查詢時間無疑是正向增加的,當資料庫中資料量十分龐大時時,查詢效率會十分低下。

而索引訪問呢,則對錶的關鍵資料列建立一個索引,查詢資料時不用讀完記錄的所有資訊,直接根據該列上的索引找到對應記錄行的位置,就像我們翻一本書的目錄一樣。

優點

  • 索引大大加快資料的查詢速度

  • 索引大大減小了伺服器需要掃描的資料量

  • 索引可以幫助伺服器避免排序和臨時表

  • 索引可以將隨機IO變成順序IO

  • 索引對於InnoDB(對索引支援行級鎖)非常重要,因為它可以讓查詢鎖更少的元組。在MySQL5.1和更新的版本中,InnoDB可以在伺服器端過濾掉行後就釋放鎖,但在早期的MySQL版本中,InnoDB直到事務提交時才會解鎖。對不需要的元組的加鎖,會增加鎖的開銷,降低併發性。 InnoDB僅對需要訪問的元組加鎖,而索引能夠減少InnoDB訪問的元組數。但是隻有在儲存引擎層過濾掉那些不需要的資料才能達到這種目的。一旦索引不允許InnoDB那樣做(即索引達不到過濾的目的),MySQL伺服器只能對InnoDB返回的資料進行WHERE操作,此時,已經無法避免對那些元組加鎖了。如果查詢不能使用索引,MySQL會進行全表掃描,並鎖住每一個元組,不管是否真正需要。

  • 關於InnoDB、索引和鎖:InnoDB在二級索引上使用共享鎖(讀鎖),但訪問主鍵索引需要排他鎖(寫鎖)

缺點

  • 建立和維護索引要耗費時間,並且隨著資料量的增加所耗費的時間也會增加。
  • 索引需要佔磁碟空間,除了資料表佔資料空間以外,每一個索引還要佔一定的物理空間。

不要盲目的建立索引,只為查詢操作頻繁的列建立索引,建立索引會使查詢操作變得更加快速,但是會降低增加、刪除、更新操作的速度,因為執行這些操作的同時會對索引檔案進行重新排序或更新。

大量資料匯入時,可以先刪除索引,再批次插入資料,最後再新增索引。

儲存方式區分

根據儲存方式的不同,MySQL 中常用的索引在物理上分為 B-樹索引和 HASH 索引兩類,兩種不同型別的索引各有其不同的適用範圍。

1) B-樹索引

B-樹索引又稱為 BTREE 索引 ,目前大部分的索引都是採用 B-樹索引來儲存的。

  • 葉子節點:包含的條目直接指向表裡的資料行。葉子節點之間彼此相連,一個葉子節點有一個指向下一個葉子節點的指標。
  • 分支節點:包含的條目指向索引裡其他的分支節點或者葉子節點。
  • 根節點:一個 B-樹索引只有一個根節點,實際上就是位於樹的最頂端的分支節點。

基於這種樹形資料結構,表中的每一行都會在索引上有一個對應值。因此,在表中進行資料查詢時,可以根據索引值一步一步定位到資料所在的行。

  • 查詢必須從索引的最左邊的列開始。
  • 查詢不能跳過某一索引列,必須按照從左到右的順序進行匹配。
  • 儲存引擎不能使用索引中範圍條件右邊的列。

2) 雜湊索引

雜湊(Hash)一般翻譯為“雜湊”,也有直接音譯成“雜湊”的,就是把任意長度的輸入(又叫作預對映,pre-image)透過雜湊演算法變換成固定長度的輸出,該輸出就是雜湊值。
雜湊索引也稱為雜湊索引或 HASH 索引。MySQL 目前僅有 MEMORY 儲存引擎和 HEAP 儲存引擎支援這類索引。其中,MEMORY 儲存引擎可以支援 B-樹索引和 HASH 索引,且將 HASH 當成預設索引。
HASH 索引不是基於樹形的資料結構查詢資料,而是根據索引列對應的雜湊值的方法獲取表的記錄行。雜湊索引的最大特點是訪問速度快,但也存在下面的一些缺點:

  • MySQL 需要讀取表中索引列的值來參與雜湊計算,雜湊計算是一個比較耗時的操作。也就是說,相對於 B-樹索引來說,建立雜湊索引會耗費更多的時間。
  • 不能使用 HASH 索引排序。
  • HASH 索引只支援等值比較,如“=”“IN()”或“<=>”。
  • HASH 索引不支援鍵的部分匹配,因為在計算 HASH 值的時候是透過整個索引值來計算的。

邏輯區分

根據索引的具體用途,MySQL 中的索引在邏輯上分為以下 5 類:

1) 普通索引

普通索引是 MySQL 中最基本的索引型別,它沒有任何限制,唯一任務就是加快系統對資料的訪問速度。

普通索引允許在定義索引的列中插入重複值和空值。

建立普通索引時,通常使用的關鍵字是 INDEX 或 KEY。

例 1

下面在 tb_student 表中的 id 欄位上建立名為 index_id 的索引。

CREATE INDEX index_id ON tb_student(id);

2) 唯一索引

唯一索引與普通索引類似,不同的是建立唯一性索引的目的不是為了提高訪問速度,而是為了避免資料出現重複。

建立唯一索引通常使用 UNIQUE 關鍵字。
例 2

tb_student 表中的 id 欄位上建立名為 index_id 的索引,SQL 語句如下:

CREATE UNIQUE INDEX index_id ON tb_student(id);

其中,id 欄位可以有唯一性約束,也可以沒有。

3) 主鍵索引

顧名思義,主鍵索引就是專門為主鍵欄位建立的索引,也屬於索引的一種。

主鍵索引是一種特殊的唯一索引,不允許值重複或者值為空。

建立主鍵索引通常使用 PRIMARY KEY 關鍵字。不能使用 CREATE INDEX 語句建立主鍵索引。

4) 空間索引

空間索引是對空間資料型別的欄位建立的索引,使用 SPATIAL 關鍵字進行擴充套件。

建立空間索引的列必須將其宣告為 NOT NULL,空間索引只能在儲存引擎為 MyISAM 的表中建立。

空間索引主要用於地理空間資料型別GEOMETRY。對於初學者來說,這類索引很少會用到。
例 3
下面在 tb_student 表中的 line 欄位上建立名為 index_line 的索引,SQL 語句如下:

CREATE SPATIAL INDEX index_line ON tb_student(line);

其中,tb_student 表的儲存引擎必須是 MyISAM,line 欄位必須為空間資料型別,而且是非空的。

5) 全文索引

全文索引主要用來查詢文字中的關鍵字,只能在 CHAR、VARCHAR 或 TEXT 型別的列上建立。在 MySQL 中只有 MyISAM 儲存引擎支援全文索引。

全文索引允許在索引列中插入重複值和空值。

不過對於大容量的資料表,生成全文索引非常消耗時間和硬碟空間。

建立全文索引使用 FULLTEXT 關鍵字。
例 4
在 tb_student 表中的 info 欄位上建立名為 index_info 的全文索引,SQL 語句如下:

CREATE FULLTEXT INDEX index_info ON tb_student(info);

其中,index_info 的儲存引擎必須是 MyISAM,info 欄位必須是 CHAR、VARCHAR 和 TEXT 等型別。

實際使用區分

索引在邏輯上分為以上 5 類,但在實際使用中,索引通常被建立成單列索引和組合索引。

1)單列索引

單列索引就是索引只包含原表的一個列。在表中的單個欄位上建立索引,單列索引只根據該欄位進行索引。

單列索引可以是普通索引,也可以是唯一性索引,還可以是全文索引。只要保證該索引只對應一個欄位即可。
例 5
下面在 tb_student 表中的 address 欄位上建立名為 index_addr 的單列索引,address 欄位的資料型別為 VARCHAR(20),索引的資料型別為 CHAR(4)。SQL 語句如下:

CREATE INDEX index_addr ON tb_student(address(4));

這樣,查詢時可以只查詢 address 欄位的前 4 個字元,而不需要全部查詢。

2)多列索引

組合索引也稱為複合索引或多列索引。相對於單列索引來說,組合索引是將原表的多個列共同組成一個索引。多列索引是在表的多個欄位上建立一個索引。該索引指向建立時對應的多個欄位,可以透過這幾個欄位進行查詢。但是,只有查詢條件中使用了這些欄位中第一個欄位時,索引才會被使用。

例如,在表中的 id、name 和 sex 欄位上建立一個多列索引,那麼,只有查詢條件使用了 id 欄位時,該索引才會被使用。
例 6
下面在 tb_student 表中的 name 和 address 欄位上建立名為 index_na 的索引,SQL 語句如下:

CREATE INDEX index_na ON tb_student(name,address);

該索引建立好了以後,查詢條件中必須有 name 欄位才能使用索引。

提示:一個表可以有多個單列索引,但這些索引不是組合索引。一個組合索引實質上為表的查詢提供了多個索引,以此來加快查詢速度。比如,在一個表中建立了一個組合索引(c1,c2,c3),在實際查詢中,系統用來實際加速的索引有三個:單個索引(c1)、雙列索引(c1,c2)和多列索引(c1,c2,c3)。

本節轉自MySQL索引型別詳解

1)建立表時建立索引

CREATE TABLE 表名 (
欄位名1  資料型別 [完整性約束條件…],
欄位名2  資料型別 [完整性約束條件…],
[UNIQUE | FULLTEXT | SPATIAL ]   INDEX | KEY    索引名  (欄位名[(長度)]  [ASC |DESC]));

2)在已存在的表上建立索引 CREATE

CREATE  [UNIQUE | FULLTEXT | SPATIAL ]  INDEX  索引名    ON 表名 (欄位名[(長度)]  [ASC |DESC]) ;

3)在已存在的表上建立索引 ALTER

 ALTER TABLE 表名 ADD  [UNIQUE | FULLTEXT | SPATIAL ] INDEX    索引名 (欄位名[(長度)]  [ASC |DESC]) ;

4)刪除索引

DROP INDEX 索引名 ON 表名字;

示例

1.建立索引
    -在建立表時就建立(需要注意的幾點)
    create table s1(
    id int ,#可以在這加primary key
    #id int index #不可以這樣加索引,因為index只是索引,沒有約束一說,
    #不能像主鍵,還有唯一約束一樣,在定義欄位的時候加索引
    name char(20),
    age int,
    email varchar(30)
    #primary key(id) #也可以在這加
    index(id) #可以這樣加
    );
    -在建立表後在建立
    create index name on s1(name); #新增普通索引
    create unique age on s1(age);新增唯一索引
    alter table s1 add primary key(id); #新增住建索引,也就是給id欄位增加一個主鍵約束
    create index name on s1(id,name); #新增普通聯合索引
2.刪除索引
    drop index id on s1;
    drop index name on s1; #刪除普通索引
    drop index age on s1; #刪除唯一索引,就和普通索引一樣,不用在index前加unique來刪,直接就可以刪了
    alter table s1 drop primary key; #刪除主鍵(因為它新增的時候是按照alter來增加的,那麼我們也用alter來刪)
  1. 儘量選擇區分度高的列作為索引,區分度的公式是count(distinct col)/count(*),
    表示欄位不重複的比例,比例越大我們掃描的記錄數越少,唯一鍵的區分度是1,而一些狀態、
    性別欄位可能在大資料面前區分度就是0,那可能有人會問,這個比例有什麼經驗值嗎?使用場景不同,
    這個值也很難確定,一般需要join的欄位我們都要求是0.1以上,即平均1條掃描10條記錄
  2. 對 where,on,group by,order by 中出現的列使用索引。
  3. 對較小的資料列使用索引,這樣會使索引檔案更小,同時記憶體中也可以裝載更多的索引鍵。
  4. 為較長的字串使用字首索引。
  5. 不要過多建立索引,除了增加額外的磁碟空間外,對於DML操作的速度影響很大,因為其每增刪改一次就得從新建立索引。
  6. 使用組合索引,可以減少檔案索引大小,在使用時速度要優於多個單列索引。
  7. 最左字首匹配原則。mysql會一直向右匹配直到遇到範圍查詢就停滯匹配。比如:a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)順序的索引,d是用不到索引的,如果建立(a,b,d,c)的索引則都可以用到,a,b,d的順序可以任意調整。索引的建立需要考慮常用查詢的欄位順序。
  8. 索引列不能參與計算,保持列“乾淨”,比如from_unixtime(create_time) = ’2014-05-29’
    就不能使用到索引,原因很簡單,b+樹中存的都是資料表中的欄位值,
    但進行檢索時,需要把所有元素都應用函式才能比較,顯然成本太大。
    所以語句應該寫成create_time = unix_timestamp(’2014-05-29’);
  9. 儘可能去擴充套件索引,而不是新建索引。當需要透過增加索引來提高效能時,考慮結合現有索引判斷是否可以在已有索引上做擴充套件。
  10. =和in可以亂序,比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意順序,mysql的查詢最佳化器
    會幫你最佳化成索引可以識別的形式
SELECT `sname` FROM `stu` WHERE `age`+10=30;-- 不會使用索引,因為所有索引列參與了計算 

SELECT `sname` FROM `stu` WHERE LEFT(`date`,4) <1990; -- 不會使用索引,因為使用了函式運算,原理與上面相同 

SELECT * FROM `houdunwang` WHERE `uname` LIKE'後盾%' -- 走索引 

SELECT * FROM `houdunwang` WHERE `uname` LIKE "%後盾%" -- 不走索引 

-- 正規表示式不使用索引,這應該很好理解,所以為什麼在SQL中很難看到regexp關鍵字的原因 

-- 字串與數字比較不使用索引; 
CREATE TABLE `a` (`a` char(10)); 
EXPLAIN SELECT * FROM `a` WHERE `a`="1" -- 走索引 
EXPLAIN SELECT * FROM `a` WHERE `a`=1 -- 不走索引 

select * from dept where dname='xxx' or loc='xx' or deptno=45 --如果條件中有or,即使其中有條件帶索引也不會使用。換言之,就是要求使用的所有欄位,都必須建立索引,我們建議大家儘量避免使用or 關鍵字 

-- 如果mysql估計使用全表掃描要比使用索引快,則不使用索引

-- 組合索引最左字首
    如果組合索引為:(name,email)
    name and email       -- 使用索引
    name                 -- 使用索引
    email                -- 不使用索引

-- 排序條件為索引,則select欄位必須也是索引欄位,否則無法命中
- order by
    select name from s1 order by email desc;
    當根據索引排序時候,select查詢的欄位如果不是索引,則不走索引
    select email from s1 order by email desc;
    特別的:如果對主鍵排序,則還是走索引:
        select * from tb1 order by nid desc;
  • 避免使用select *
  • count(1)或count(列) 代替 count(*)
  • 建立表時儘量時 char 代替 varchar
  • 表的欄位順序固定長度的欄位優先
  • 組合索引代替多個單列索引(經常使用多個條件查詢時)
  • 儘量使用短索引
  • 使用連線(JOIN)來代替子查詢(Sub-Queries)
  • 連表時注意條件型別需一致
  • 索引雜湊值(重複少)不適合建索引,例:性別不適合
  1. 先執行看看是否真的很慢,注意設定SQL_NO_CACHE
  2. where條件單表查,鎖定最小返回記錄表。這句話的意思是把查詢語句的where都應用到表中返回的記錄數最小的表開始查起,單表每個欄位分別查詢,看哪個欄位的區分度最高
  3. explain檢視執行計劃,是否與1預期一致(從鎖定記錄較少的表開始查詢)
  4. order by limit 形式的sql語句讓排序的表優先查
  5. 瞭解業務方使用場景
  6. 加索引時參照建索引的幾大原則
  7. 觀察結果,不符合預期繼續從1分析

MySQL索引原理以及查詢最佳化

MySQL索引型別詳解

MySQL索引原理與高效能索引策略

本作品採用《CC 協議》,轉載必須註明作者和本文連結

相關文章