MySQL 高效能學習心得

高效能mysql學習心得

記得第一次看這本書的時候，我是一邊打瞌睡一邊看。。。現在回頭再看一遍，受益匪淺，於是摘抄一下第五章建立高效能索引的部分內容。

雜湊索引

雜湊索引（hash index）基於雜湊表實現，只有精確匹配索引所有列的查詢才有效。對於每一行資料，儲存引擎都會對所有的索引列計算一個雜湊碼（hash code），雜湊碼是一個較小的值，並且不同鍵值的行計算出來的雜湊碼也不一樣。雜湊索引將所有的雜湊碼儲存在索引中，同時在雜湊表中儲存指向每個資料行的指標。

在MySQL中，只有Memory引擎顯式支援雜湊索引。這也是Memory引擎表的預設索引型別，Memory引擎同時也支援B-Tree索引。值得一提的是，Memory引擎是支援非唯一雜湊索引的，這在資料庫世界裡面是比較與眾不同的。如果多個列的雜湊值相同，索引會以連結串列的方式存放多個記錄指標到同一個雜湊條目中。

雜湊索引的限制

因為索引自身只需儲存對應的雜湊值，所以索引的結構十分緊湊，這也讓雜湊索引查詢的速度非常快。然而，雜湊索引也有它的限制：

雜湊索引只包含雜湊值和行指標，而不儲存欄位值，所以不能使用索引中的值來避免讀取行。不過，訪問記憶體中的行的速度很快，所以大部分情況下這一點對效能的影響並不明顯。

雜湊索引資料並不是按照索引值順序儲存的，所以也就無法用於排序。

雜湊索引也不支援部分索引列匹配查詢，因為雜湊索引始終是使用索引列的全部內容來計算雜湊值的。例如，在資料列（A,B）上建立雜湊索引，如果查詢只有資料列A，則無法使用該索引。

雜湊索引只支援等值比較查詢，包括=、IN()、<=>（注意<>和<=>是不同的操作）。也不支援任何範圍查詢，例如WHERE price>100 。

訪問雜湊索引的資料非常快，除非有很多雜湊衝突（不同的索引列值卻有相同的雜湊值）。當出現雜湊衝突的時候，儲存引擎必須遍歷連結串列中所有的行指標，逐行進行比較，直到找到所有符合條件的行。

如果雜湊衝突很多的話，一些索引維護操作的代價也會很高。例如，如果在某個選擇性很低（雜湊衝突很多）的列上建立雜湊索引，那麼當從表中刪除一行時，儲存引擎需要遍歷對應雜湊值的連結串列中的每一行，找到並刪除對應行的引用，衝突越多，代價越大。

ps:雖然採用較短的名稱可以節省儲存空間，但由於鍵值的長度往往遠遠大於鍵名的長度，所以這部分的節省大部分情況下並不如可讀性來得重要。

自適應雜湊索引

InnoDB引擎有一個特殊的功能叫做“自適應雜湊索引（adaptive hash index）”。當InnoDB注意到某些索引值被使用得非常頻繁時，它會在記憶體中基於B-Tree索引之上再建立一個雜湊索引，這樣就讓B-Tree索引也具有雜湊索引的一些優點，比如快速的雜湊查詢。這是一個完全自動的、內部的行為，使用者無法控制或者配置，不過如果有必要，完全可以關閉該功能。

覆蓋索引

通常大家都會根據查詢的WHERE 條件來建立合適的索引，不過這只是索引優化的一個方面。設計優秀的索引應該考慮到整個查詢，而不單單是WHERE 條件部分。索引確實是一種查詢資料的高效方式，但是MySQL也可以使用索引來直接獲取列的資料，這樣就不再需要讀取資料行。如果索引的葉子節點中已經包含要查詢的資料，那麼還有什麼必要再回表查詢呢?

如果一個索引包含（或者說覆蓋）所有需要查詢的欄位的值，我們就稱之為“覆蓋索引”。

覆蓋索引是非常有用的工具，能夠極大地提高效能。

考慮一下如果查詢只需要掃描索引而無須回表，會帶來多少好處：

索引條目通常遠小於資料行大小，所以如果只需要讀取索引，那MySQL就會極大地減少資料訪問量。這對快取的負載非常重要，因為這種情況下響應時間大部分花費在資料拷貝上。覆蓋索引對於I/O密集型的應用也有幫助，因為索引比資料更小，更容易全部放入記憶體中（這對於MyISAM尤其正確，因為MyISAM能壓縮索引以變得更小）。

因為索引是按照列值順序儲存的（至少在單個頁內是如此），所以對於I/O密集型的範圍查詢會比隨機從磁碟讀取每一行資料的I/O要少得多。對於某些儲存引擎，例如MyISAM和PerconaXtraDB，甚至可以通過OPTIMIZE命令使得索引完全順序排列，這讓簡單的範圍查詢能使用完全順序的索引訪問。

一些儲存引擎如MyISAM在記憶體中只快取索引，資料則依賴於作業系統來快取，因此要訪問資料需要一次系統呼叫。這可能會導致嚴重的效能問題，尤其是那些系統呼叫佔了資料訪問中的最大開銷的場景。

由於InnoDB的聚簇索引，覆蓋索引對InnoDB表特別有用。InnoDB的二級索引在葉子節點中儲存了行的主鍵值，所以如果二級主鍵能夠覆蓋查詢，則可以避免對主鍵索引的二次查詢。

索引和鎖

索引可以讓查詢鎖定更少的行。如果你的查詢從不訪問那些不需要的行，那麼就會鎖定更少的行，從兩個方面來看這對效能都有好處。首先，雖然InnoDB的行鎖效率很高，記憶體使用也很少，但是鎖定行的時候仍然會帶來額外開銷；其次，鎖定超過需要的行會增加鎖爭用並減少併發性。

InnoDB只有在訪問行的時候才會對其加鎖，而索引能夠減少InnoDB訪問的行數，從而減少鎖的數量。但這隻有當InnoDB在儲存引擎層能夠過濾掉所有不需要的行時才有效。如果索引無法過濾掉無效的行，那麼在InnoDB檢索到資料並返回給伺服器層以後，MySQL伺服器才能應用WHERE 子句。這時已經無法避免鎖定行了：InnoDB已經鎖住了這些行，到適當的時候才釋放。在MySQL 5.1和更新的版本中，InnoDB可以在伺服器端過濾掉行後就釋放鎖，但是在早期的MySQL版本中，InnoDB只有在事務提交後才能釋放鎖。

通過下面的例子再次使用資料庫Sakila很好地解釋了這些情況：


 mysql> SET AUTOCOMMIT=0;
 mysql> BEGIN;
 mysql> SELECT actor_id FROM sakila.actor WHERE actor_id < 5 AND actor_id <> 1 FOR UPDATE;//排他鎖

這條查詢僅僅會返回2～4之間的行，但是實際上獲取了1～4之間的行的排他鎖。InnoDB會鎖住第1行，這是因為MySQL為該查詢選擇的執行計劃是索引範圍掃描：

換句話說，底層儲存引擎的操作是“從索引的開頭開始獲取滿足條件actor_id<5 的記錄”，伺服器並沒有告訴InnoDB可以過濾第1行的WHERE 條件。注意到EXPLAIN 的Extra 列出現了"Usingwhere"，這表示MySQL伺服器將儲存引擎返回行以後再應用WHERE過濾條件。

下面的第二個查詢就能證明第1行確實已經被鎖定，儘管第一個查詢的結果中並沒有這個第1行。保持第一個連線開啟，然後開啟第二個連線並執行如下查詢：

mysql> SET AUTOCOMMIT=0;
mysql> BEGIN;
mysql> SELECT actor_id FROM sakila.actor WHERE actor_id = 1 FOR UPDATE;//排他鎖

這個查詢將會掛起，直到第一個事務釋放第1行的鎖。這個行為對於基於語句的複製的正常執行來說是必要的。

就像這個例子顯示的，即使使用了索引，InnoDB也可能鎖住一些不需要的資料。如果不能使用索引查詢和鎖定行的話問題可能會更糟糕，MySQL會做全表掃描並鎖住所有的行，而不管是不是需要。

關於InnoDB、索引和鎖有一些很少有人知道的細節：InnoDB在二級索引上使用共享（讀）鎖，但訪問主鍵索引需要排他（寫）鎖。這消除了使用覆蓋索引的可能性，並且使得SELECT FOR UPDATE 比LOCK IN SHARE MODE 或非鎖定查詢要慢很多。