MySQL的btree索引和hash索引的區別

alexanderkenndy發表於2018-01-24
Hash 索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree 索引需要從根節點到枝節點,最後才能訪問到頁節點這樣多次的IO訪問,所以 Hash 索引的查詢效率要遠高於 B-Tree 索引。
可 能很多人又有疑問了,既然 Hash 索引的效率要比 B-Tree 高很多,為什麼大家不都用 Hash 索引而還要使用 B-Tree 索引呢?任何事物都是有兩面性的,Hash 索引也一樣,雖然 Hash 索引效率高,但是 Hash 索引本身由於其特殊性也帶來了很多限制和弊端,主要有以下這些。


(1)Hash 索引僅僅能滿足"=","IN"和"<>"查詢,不能使用範圍查詢。


由於 Hash 索引比較的是進行 Hash 運算之後的 Hash 值,所以它只能用於等值的過濾,不能用於基於範圍的過濾,因為經過相應的 Hash 演算法處理之後的 Hash 值的大小關係,並不能保證和Hash運算前完全一樣。


(2)Hash 索引無法被用來避免資料的排序操作。


由於 Hash 索引中存放的是經過 Hash 計算之後的 Hash 值,而且Hash值的大小關係並不一定和 Hash 運算前的鍵值完全一樣,所以資料庫無法利用索引的資料來避免任何排序運算;


(3)Hash 索引不能利用部分索引鍵查詢。


對於組合索引,Hash 索引在計算 Hash 值的時候是組合索引鍵合併後再一起計算 Hash 值,而不是單獨計算 Hash 值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash 索引也無法被利用。


(4)Hash 索引在任何時候都不能避免表掃描。


前面已經知道,Hash 索引是將索引鍵通過 Hash 運算之後,將 Hash運算結果的 Hash 值和所對應的行指標資訊存放於一個 Hash 表中,由於不同索引鍵存在相同 Hash 值,所以即使取滿足某個 Hash 鍵值的資料的記錄條數,也無法從 Hash 索引中直接完成查詢,還是要通過訪問表中的實際資料進行相應的比較,並得到相應的結果。


(5)Hash 索引遇到大量Hash值相等的情況後效能並不一定就會比B-Tree索引高。


對於選擇性比較低的索引鍵,如果建立 Hash 索引,那麼將會存在大量記錄指標資訊存於同一個 Hash 值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表資料的訪問,而造成整體效能低下。

後記
在MySQL中,只有HEAP/MEMORY引擎表才能顯式支援雜湊索引(NDB也支援,但這個不常用),InnoDB引擎的自適應雜湊索引(adaptive hash index)不在此列,因為這不是建立索引時可指定的。


還需要注意到:HEAP/MEMORY引擎表在mysql例項重啟後,資料會丟失。


通常,B+樹索引結構適用於絕大多數場景,像下面這種場景用雜湊索引才更有優勢:


在HEAP表中,如果儲存的資料重複度很低(也就是說基數很大),對該列資料以等值查詢為主,沒有範圍查詢、沒有排序的時候,特別適合採用雜湊索引


例如這種SQL:
SELECT … FROM t WHERE C1 = ?; — 僅等值查詢


在大多數場景下,都會有範圍查詢、排序、分組等查詢特徵,用B+樹索引就可以了。

轉載自:

https://www.cnblogs.com/vicenteforever/articles/1789613.html

https://www.cnblogs.com/heiming/p/5865101.html

相關文章