通過分析 JDK 原始碼研究 Hash 儲存機制

developerworks發表於2015-10-18

通過 HashMap、HashSet 的原始碼分析其 Hash 儲存機制

實際上,HashSet 和 HashMap 之間有很多相似之處,對於 HashSet 而言,系統採用 Hash 演算法決定集合元素的儲存位置,這樣可以保證能快速存、取集合元素;對於 HashMap 而言,系統 key-value 當成一個整體進行處理,系統總是根據 Hash 演算法來計算 key-value 的儲存位置,這樣可以保證能快速存、取 Map 的 key-value 對。

在介紹集合儲存之前需要指出一點:雖然集合號稱儲存的是 Java 物件,但實際上並不會真正將 Java 物件放入 Set 集合中,只是在 Set 集合中保留這些物件的引用而言。也就是說:Java 集合實際上是多個引用變數所組成的集合,這些引用變數指向實際的 Java 物件。

HashMap 的儲存實現

當程式試圖將多個 key-value 放入 HashMap 中時,以如下程式碼片段為例:

 HashMap<String , Double> map = new HashMap<String , Double>(); 
 map.put("語文" , 80.0); 
 map.put("數學" , 89.0); 
 map.put("英語" , 78.2);

HashMap 採用一種所謂的“Hash 演算法”來決定每個元素的儲存位置。

當程式執行 map.put(“語文” , 80.0); 時,系統將呼叫”語文”的 hashCode() 方法得到其 hashCode 值——每個 Java 物件都有 hashCode() 方法,都可通過該方法獲得它的 hashCode 值。得到這個物件的 hashCode 值之後,系統會根據該 hashCode 值來決定該元素的儲存位置。

我們可以看 HashMap 類的 put(K key , V value) 方法的原始碼:

 public V put(K key, V value) 
 { 
	 // 如果 key 為 null,呼叫 putForNullKey 方法進行處理
	 if (key == null) 
		 return putForNullKey(value); 
	 // 根據 key 的 keyCode 計算 Hash 值
	 int hash = hash(key.hashCode()); 
	 // 搜尋指定 hash 值在對應 table 中的索引
 <strong> int i = indexFor(hash, table.length);</strong>
	 // 如果 i 索引處的 Entry 不為 null,通過迴圈不斷遍歷 e 元素的下一個元素
	 for (Entry&lt;K,V&gt; e = table[i]; e != null; e = e.next) 
	 { 
		 Object k; 
		 // 找到指定 key 與需要放入的 key 相等(hash 值相同
		 // 通過 equals 比較放回 true)
		 if (e.hash == hash &amp;&amp; ((k = e.key) == key 
			 || key.equals(k))) 
		 { 
			 V oldValue = e.value; 
			 e.value = value; 
			 e.recordAccess(this); 
			 return oldValue; 
		 } 
	 } 
	 // 如果 i 索引處的 Entry 為 null,表明此處還沒有 Entry 
	 modCount++; 
	 // 將 key、value 新增到 i 索引處
	 addEntry(hash, key, value, i); 
	 return null; 
 }

上面程式中用到了一個重要的內部介面:Map.Entry,每個 Map.Entry 其實就是一個 key-value 對。從上面程式中可以看出:當系統決定儲存 HashMap 中的 key-value 對時,完全沒有考慮 Entry 中的 value,僅僅只是根據 key 來計算並決定每個 Entry 的儲存位置。這也說明了前面的結論:我們完全可以把 Map 集合中的 value 當成 key 的附屬,當系統決定了 key 的儲存位置之後,value 隨之儲存在那裡即可。

上面方法提供了一個根據 hashCode() 返回值來計算 Hash 碼的方法:hash(),這個方法是一個純粹的數學計算,其方法如下:

static int hash(int h) 
{ 
    h ^= (h >>> 20) ^ (h >>> 12); 
    return h ^ (h >>> 7) ^ (h >>> 4); 
}

對於任意給定的物件,只要它的 hashCode() 返回值相同,那麼程式呼叫 hash(int h) 方法所計算得到的 Hash 碼值總是相同的。接下來程式會呼叫 indexFor(int h, int length) 方法來計算該物件應該儲存在 table 陣列的哪個索引處。indexFor(int h, int length) 方法的程式碼如下:

static int indexFor(int h, int length) 
{ 
    return h & (length-1); 
}

這個方法非常巧妙,它總是通過 h &(table.length -1) 來得到該物件的儲存位置——而 HashMap 底層陣列的長度總是 2 的 n 次方,這一點可參看後面關於 HashMap 構造器的介紹。

當 length 總是 2 的倍數時,h & (length-1)將是一個非常巧妙的設計:假設 h=5,length=16, 那麼 h & length – 1 將得到 5;如果 h=6,length=16, 那麼 h & length – 1 將得到 6 ……如果 h=15,length=16, 那麼 h & length – 1 將得到 15;但是當 h=16 時 , length=16 時,那麼 h & length – 1 將得到 0 了;當 h=17 時 , length=16 時,那麼 h & length – 1 將得到 1 了……這樣保證計算得到的索引值總是位於 table 陣列的索引之內。

根據上面 put 方法的原始碼可以看出,當程式試圖將一個 key-value 對放入 HashMap 中時,程式首先根據該 key 的 hashCode() 返回值決定該 Entry 的儲存位置:如果兩個 Entry 的 key 的 hashCode() 返回值相同,那它們的儲存位置相同。如果這兩個 Entry 的 key 通過 equals 比較返回 true,新新增 Entry 的 value 將覆蓋集合中原有 Entry 的 value,但 key 不會覆蓋。如果這兩個 Entry 的 key 通過 equals 比較返回 false,新新增的 Entry 將與集合中原有 Entry 形成 Entry 鏈,而且新新增的 Entry 位於 Entry 鏈的頭部——具體說明繼續看 addEntry() 方法的說明。

當向 HashMap 中新增 key-value 對,由其 key 的 hashCode() 返回值決定該 key-value 對(就是 Entry 物件)的儲存位置。當兩個 Entry 物件的 key 的 hashCode() 返回值相同時,將由 key 通過 eqauls() 比較值決定是採用覆蓋行為(返回 true),還是產生 Entry 鏈(返回 false)。

上面程式中還呼叫了 addEntry(hash, key, value, i); 程式碼,其中 addEntry 是 HashMap 提供的一個包訪問許可權的方法,該方法僅用於新增一個 key-value 對。下面是該方法的程式碼:

void addEntry(int hash, K key, V value, int bucketIndex) 
{ 
    // 獲取指定 bucketIndex 索引處的 Entry 
    Entry<K,V> e = table[bucketIndex]; 	 // ①
    // 將新建立的 Entry 放入 bucketIndex 索引處,並讓新的 Entry 指向原來的 Entry 
    table[bucketIndex] = new Entry<K,V>(hash, key, value, e); 
    // 如果 Map 中的 key-value 對的數量超過了極限
    if (size++ >= threshold) 
        // 把 table 物件的長度擴充到 2 倍。
        resize(2 * table.length); 	 // ②
}

上面方法的程式碼很簡單,但其中包含了一個非常優雅的設計:系統總是將新新增的 Entry 物件放入 table 陣列的 bucketIndex 索引處——如果 bucketIndex 索引處已經有了一個 Entry 物件,那新新增的 Entry 物件指向原有的 Entry 物件(產生一個 Entry 鏈),如果 bucketIndex 索引處沒有 Entry 物件,也就是上面程式①號程式碼的 e 變數是 null,也就是新放入的 Entry 物件指向 null,也就是沒有產生 Entry 鏈。

Hash 演算法的效能選項

根據上面程式碼可以看出,在同一個 bucket 儲存 Entry 鏈的情況下,新放入的 Entry 總是位於 bucket 中,而最早放入該 bucket 中的 Entry 則位於這個 Entry 鏈的最末端。

上面程式中還有這樣兩個變數:

  • size:該變數儲存了該 HashMap 中所包含的 key-value 對的數量。
  • threshold:該變數包含了 HashMap 能容納的 key-value 對的極限,它的值等於 HashMap 的容量乘以負載因子(load factor)。

從上面程式中②號程式碼可以看出,當 size++ >= threshold 時,HashMap 會自動呼叫 resize 方法擴充 HashMap 的容量。每擴充一次,HashMap 的容量就增大一倍。

上面程式中使用的 table 其實就是一個普通陣列,每個陣列都有一個固定的長度,這個陣列的長度就是 HashMap 的容量。HashMap 包含如下幾個構造器:

  • HashMap():構建一個初始容量為 16,負載因子為 0.75 的 HashMap。
  • HashMap(int initialCapacity):構建一個初始容量為 initialCapacity,負載因子為 0.75 的 HashMap。
  • HashMap(int initialCapacity, float loadFactor):以指定初始容量、指定的負載因子建立一個 HashMap。

當建立一個 HashMap 時,系統會自動建立一個 table 陣列來儲存 HashMap 中的 Entry,下面是 HashMap 中一個構造器的程式碼:

 // 以指定初始化容量、負載因子建立 HashMap 
 public HashMap(int initialCapacity, float loadFactor) 
 { 
	 // 初始容量不能為負數
	 if (initialCapacity < 0) 
		 throw new IllegalArgumentException( 
		"Illegal initial capacity: " + 
			 initialCapacity); 
	 // 如果初始容量大於最大容量,讓出示容量
	 if (initialCapacity > MAXIMUM_CAPACITY) 
		 initialCapacity = MAXIMUM_CAPACITY; 
	 // 負載因子必須大於 0 的數值
	 if (loadFactor <= 0 || Float.isNaN(loadFactor)) 
		 throw new IllegalArgumentException( 
		 loadFactor); 
	 // 計算出大於 initialCapacity 的最小的 2 的 n 次方值。
	 int capacity = 1; 
	 while (capacity < initialCapacity) 
		 capacity <<= 1; 
	 this.loadFactor = loadFactor; 
	 // 設定容量極限等於容量 * 負載因子
	 threshold = (int)(capacity * loadFactor); 
	 // 初始化 table 陣列
	 table = new Entry[capacity]; 			 // ①
	 init(); 
 }

上面程式碼中粗體字程式碼包含了一個簡潔的程式碼實現:找出大於 initialCapacity 的、最小的 2 的 n 次方值,並將其作為 HashMap 的實際容量(由 capacity 變數儲存)。例如給定 initialCapacity 為 10,那麼該 HashMap 的實際容量就是 16。

程式①號程式碼處可以看到:table 的實質就是一個陣列,一個長度為 capacity 的陣列。

對於 HashMap 及其子類而言,它們採用 Hash 演算法來決定集合中元素的儲存位置。當系統開始初始化 HashMap 時,系統會建立一個長度為 capacity 的 Entry 陣列,這個陣列裡可以儲存元素的位置被稱為“桶(bucket)”,每個 bucket 都有其指定索引,系統可以根據其索引快速訪問該 bucket 裡儲存的元素。

無論何時,HashMap 的每個“桶”只儲存一個元素(也就是一個 Entry),由於 Entry 物件可以包含一個引用變數(就是 Entry 構造器的的最後一個引數)用於指向下一個 Entry,因此可能出現的情況是:HashMap 的 bucket 中只有一個 Entry,但這個 Entry 指向另一個 Entry ——這就形成了一個 Entry 鏈。如圖 1 所示:

圖 1. HashMap 的儲存示意

通過分析 JDK 原始碼研究 Hash 儲存機制

HashMap 的讀取實現

當 HashMap 的每個 bucket 裡儲存的 Entry 只是單個 Entry ——也就是沒有通過指標產生 Entry 鏈時,此時的 HashMap 具有最好的效能:當程式通過 key 取出對應 value 時,系統只要先計算出該 key 的 hashCode() 返回值,在根據該 hashCode 返回值找出該 key 在 table 陣列中的索引,然後取出該索引處的 Entry,最後返回該 key 對應的 value 即可。看 HashMap 類的 get(K key) 方法程式碼:

 public V get(Object key) 
 { 
	 // 如果 key 是 null,呼叫 getForNullKey 取出對應的 value 
	 if (key == null) 
		 return getForNullKey(); 
	 // 根據該 key 的 hashCode 值計算它的 hash 碼
	 int hash = hash(key.hashCode()); 
	 // 直接取出 table 陣列中指定索引處的值,
	 for (Entry<K,V> e = table[indexFor(hash, table.length)]; 
		 e != null; 
		 // 搜尋該 Entry 鏈的下一個 Entr 
		 e = e.next) 		 // ①
	 { 
		 Object k; 
		 // 如果該 Entry 的 key 與被搜尋 key 相同
		 if (e.hash == hash && ((k = e.key) == key 
			 || key.equals(k))) 
			 return e.value; 
	 } 
	 return null; 
 }

從上面程式碼中可以看出,如果 HashMap 的每個 bucket 裡只有一個 Entry 時,HashMap 可以根據索引、快速地取出該 bucket 裡的 Entry;在發生“Hash 衝突”的情況下,單個 bucket 裡儲存的不是一個 Entry,而是一個 Entry 鏈,系統只能必須按順序遍歷每個 Entry,直到找到想搜尋的 Entry 為止——如果恰好要搜尋的 Entry 位於該 Entry 鏈的最末端(該 Entry 是最早放入該 bucket 中),那系統必須迴圈到最後才能找到該元素。

歸納起來簡單地說,HashMap 在底層將 key-value 當成一個整體進行處理,這個整體就是一個 Entry 物件。HashMap 底層採用一個 Entry[] 陣列來儲存所有的 key-value 對,當需要儲存一個 Entry 物件時,會根據 Hash 演算法來決定其儲存位置;當需要取出一個 Entry 時,也會根據 Hash 演算法找到其儲存位置,直接取出該 Entry。由此可見:HashMap 之所以能快速存、取它所包含的 Entry,完全類似於現實生活中母親從小教我們的:不同的東西要放在不同的位置,需要時才能快速找到它。

當建立 HashMap 時,有一個預設的負載因子(load factor),其預設值為 0.75,這是時間和空間成本上一種折衷:增大負載因子可以減少 Hash 表(就是那個 Entry 陣列)所佔用的記憶體空間,但會增加查詢資料的時間開銷,而查詢是最頻繁的的操作(HashMap 的 get() 與 put() 方法都要用到查詢);減小負載因子會提高資料查詢的效能,但會增加 Hash 表所佔用的記憶體空間。

掌握了上面知識之後,我們可以在建立 HashMap 時根據實際需要適當地調整 load factor 的值;如果程式比較關心空間開銷、記憶體比較緊張,可以適當地增加負載因子;如果程式比較關心時間開銷,記憶體比較寬裕則可以適當的減少負載因子。通常情況下,程式設計師無需改變負載因子的值。

如果開始就知道 HashMap 會儲存多個 key-value 對,可以在建立時就使用較大的初始化容量,如果 HashMap 中 Entry 的數量一直不會超過極限容量(capacity * load factor),HashMap 就無需呼叫 resize() 方法重新分配 table 陣列,從而保證較好的效能。當然,開始就將初始容量設定太高可能會浪費空間(系統需要建立一個長度為 capacity 的 Entry 陣列),因此建立 HashMap 時初始化容量設定也需要小心對待。

HashSet 的實現

對於 HashSet 而言,它是基於 HashMap 實現的,HashSet 底層採用 HashMap 來儲存所有元素,因此 HashSet 的實現比較簡單,檢視 HashSet 的原始碼,可以看到如下程式碼:

 public class HashSet<E> 
	 extends AbstractSet<E> 
	 implements Set<E>, Cloneable, java.io.Serializable 
 { 
	 // 使用 HashMap 的 key 儲存 HashSet 中所有元素
	 private transient HashMap<E,Object> map; 
	 // 定義一個虛擬的 Object 物件作為 HashMap 的 value 
	 private static final Object PRESENT = new Object(); 
	 ... 
	 // 初始化 HashSet,底層會初始化一個 HashMap 
	 public HashSet() 
	 { 
		 map = new HashMap<E,Object>(); 
	 } 
	 // 以指定的 initialCapacity、loadFactor 建立 HashSet 
	 // 其實就是以相應的引數建立 HashMap 
	 public HashSet(int initialCapacity, float loadFactor) 
	 { 
		 map = new HashMap<E,Object>(initialCapacity, loadFactor); 
	 } 
	 public HashSet(int initialCapacity) 
	 { 
		 map = new HashMap<E,Object>(initialCapacity); 
	 } 
	 HashSet(int initialCapacity, float loadFactor, boolean dummy) 
	 { 
		 map = new LinkedHashMap<E,Object>(initialCapacity 
			 , loadFactor); 
	 } 
	 // 呼叫 map 的 keySet 來返回所有的 key 
	 public Iterator<E> iterator() 
	 { 
		 return map.keySet().iterator(); 
	 } 
	 // 呼叫 HashMap 的 size() 方法返回 Entry 的數量,就得到該 Set 裡元素的個數
	 public int size() 
	 { 
		 return map.size(); 
	 } 
	 // 呼叫 HashMap 的 isEmpty() 判斷該 HashSet 是否為空,
	 // 當 HashMap 為空時,對應的 HashSet 也為空
	 public boolean isEmpty() 
	 { 
		 return map.isEmpty(); 
	 } 
	 // 呼叫 HashMap 的 containsKey 判斷是否包含指定 key 
	 //HashSet 的所有元素就是通過 HashMap 的 key 來儲存的
	 public boolean contains(Object o) 
	 { 
		 return map.containsKey(o); 
	 } 
	 // 將指定元素放入 HashSet 中,也就是將該元素作為 key 放入 HashMap 
	 public boolean add(E e) 
	 { 
		 return map.put(e, PRESENT) == null; 
	 } 
	 // 呼叫 HashMap 的 remove 方法刪除指定 Entry,也就刪除了 HashSet 中對應的元素
	 public boolean remove(Object o) 
	 { 
		 return map.remove(o)==PRESENT; 
	 } 
	 // 呼叫 Map 的 clear 方法清空所有 Entry,也就清空了 HashSet 中所有元素
	 public void clear() 
	 { 
		 map.clear(); 
	 } 
	 ... 
 }

由上面源程式可以看出,HashSet 的實現其實非常簡單,它只是封裝了一個 HashMap 物件來儲存所有的集合元素,所有放入 HashSet 中的集合元素實際上由 HashMap 的 key 來儲存,而 HashMap 的 value 則儲存了一個 PRESENT,它是一個靜態的 Object 物件。

HashSet 的絕大部分方法都是通過呼叫 HashMap 的方法來實現的,因此 HashSet 和 HashMap 兩個集合在實現本質上是相同的。

HashMap 的 put 與 HashSet 的 add

由於 HashSet 的 add() 方法新增集合元素時實際上轉變為呼叫 HashMap 的 put() 方法來新增 key-value 對,當新放入 HashMap 的 Entry 中 key 與集合中原有 Entry 的 key 相同(hashCode() 返回值相等,通過 equals 比較也返回 true),新新增的 Entry 的 value 將覆蓋原來 Entry 的 value,但 key 不會有任何改變,因此如果向 HashSet 中新增一個已經存在的元素,新新增的集合元素(底層由 HashMap 的 key 儲存)不會覆蓋已有的集合元素。

掌握上面理論知識之後,接下來看一個示例程式,測試一下自己是否真正掌握了 HashMap 和 HashSet 集合的功能。

 class Name
{
    private String first; 
    private String last; 

    public Name(String first, String last) 
    { 
        this.first = first; 
        this.last = last; 
    } 

    public boolean equals(Object o) 
    { 
        if (this == o) 
        { 
            return true; 
        } 

	if (o.getClass() == Name.class) 
        { 
            Name n = (Name)o; 
            return n.first.equals(first) 
                && n.last.equals(last); 
        } 
        return false; 
    } 
}

public class HashSetTest
{
    public static void main(String[] args)
    { 
        Set<Name> s = new HashSet<Name>();
        s.add(new Name("abc", "123"));
        System.out.println(
            s.contains(new Name("abc", "123")));
    }
}

上面程式中向 HashSet 裡新增了一個 new Name(“abc”, “123″) 物件之後,立即通過程式判斷該 HashSet 是否包含一個 new Name(“abc”, “123″) 物件。粗看上去,很容易以為該程式會輸出 true。

實際執行上面程式將看到程式輸出 false,這是因為 HashSet 判斷兩個物件相等的標準除了要求通過 equals() 方法比較返回 true 之外,還要求兩個物件的 hashCode() 返回值相等。而上面程式沒有重寫 Name 類的 hashCode() 方法,兩個 Name 物件的 hashCode() 返回值並不相同,因此 HashSet 會把它們當成 2 個物件處理,因此程式返回 false。

由此可見,當我們試圖把某個類的物件當成 HashMap 的 key,或試圖將這個類的物件放入 HashSet 中儲存時,重寫該類的 equals(Object obj) 方法和 hashCode() 方法很重要,而且這兩個方法的返回值必須保持一致:當該類的兩個的 hashCode() 返回值相同時,它們通過 equals() 方法比較也應該返回 true。通常來說,所有參與計算 hashCode() 返回值的關鍵屬性,都應該用於作為 equals() 比較的標準。

如下程式就正確重寫了 Name 類的 hashCode() 和 equals() 方法,程式如下:

class Name 
{ 
    private String first;
    private String last;
    public Name(String first, String last)
    { 
        this.first = first; 
        this.last = last; 
    } 
    // 根據 first 判斷兩個 Name 是否相等
    public boolean equals(Object o) 
    { 
        if (this == o) 
        { 
            return true; 
        } 
        if (o.getClass() == Name.class) 
        { 
            Name n = (Name)o; 
            return n.first.equals(first); 
        } 
        return false; 
    } 

    // 根據 first 計算 Name 物件的 hashCode() 返回值
    public int hashCode() 
    { 
        return first.hashCode(); 
    }

    public String toString() 
    { 
        return "Name[first=" + first + ", last=" + last + "]"; 
    } 
 } 

 public class HashSetTest2 
 { 
    public static void main(String[] args) 
    { 
        HashSet<Name> set = new HashSet<Name>(); 
        set.add(new Name("abc" , "123")); 
        set.add(new Name("abc" , "456")); 
        System.out.println(set); 
    } 
}

上面程式中提供了一個 Name 類,該 Name 類重寫了 equals() 和 toString() 兩個方法,這兩個方法都是根據 Name 類的 first 例項變數來判斷的,當兩個 Name 物件的 first 例項變數相等時,這兩個 Name 物件的 hashCode() 返回值也相同,通過 equals() 比較也會返回 true。

程式主方法先將第一個 Name 物件新增到 HashSet 中,該 Name 物件的 first 例項變數值為”abc”,接著程式再次試圖將一個 first 為”abc”的 Name 物件新增到 HashSet 中,很明顯,此時沒法將新的 Name 物件新增到該 HashSet 中,因為此處試圖新增的 Name 物件的 first 也是” abc”,HashSet 會判斷此處新增的 Name 物件與原有的 Name 物件相同,因此無法新增進入,程式在①號程式碼處輸出 set 集合時將看到該集合裡只包含一個 Name 物件,就是第一個、last 為”123″的 Name 物件。

相關文章