java基礎:HashMap — 原始碼分析

Hiway發表於2018-12-16

其他更多java基礎文章: java基礎學習(目錄)


學習資料
HashMap 原始碼詳細分析(JDK1.8)
Java 8系列之重新認識HashMap
Java集合:HashMap詳解(JDK 1.8)

本文將不講紅黑樹相關的內容,因為我自己也還沒弄懂,下一步將演算法和資料結構看完後,會寫一篇原始碼分析(二)作為後續。

摘要

HashMap是Java程式設計師使用頻率最高的用於對映(鍵值對)處理的資料型別。隨著JDK(Java Developmet Kit)版本的更新,JDK1.8對HashMap底層的實現進行了優化,例如引入紅黑樹的資料結構和擴容的優化等。本文結合JDK1.7和JDK1.8的區別,深入探討HashMap的結構實現和功能原理。

簡介

Java為資料結構中的對映定義了一個介面java.util.Map,此介面主要有四個常用的實現類,分別是HashMap、Hashtable、LinkedHashMap和TreeMap,類繼承關係如下圖所示:

image

下面針對各個實現類的特點做一些說明:

(1) HashMap:它根據鍵的hashCode值儲存資料,大多數情況下可以直接定位到它的值,因而具有很快的訪問速度,但遍歷順序卻是不確定的。 HashMap最多隻允許一條記錄的鍵為null,允許多條記錄的值為null。HashMap非執行緒安全,即任一時刻可以有多個執行緒同時寫HashMap,可能會導致資料的不一致。如果需要滿足執行緒安全,可以用 Collections的synchronizedMap方法使HashMap具有執行緒安全的能力,或者使用ConcurrentHashMap。

(2) Hashtable:Hashtable是遺留類,很多對映的常用功能與HashMap類似,不同的是它承自Dictionary類,並且是執行緒安全的,任一時間只有一個執行緒能寫Hashtable,併發性不如ConcurrentHashMap,因為ConcurrentHashMap引入了分段鎖。Hashtable不建議在新程式碼中使用,不需要執行緒安全的場合可以用HashMap替換,需要執行緒安全的場合可以用ConcurrentHashMap替換。

(3) LinkedHashMap:LinkedHashMap是HashMap的一個子類,儲存了記錄的插入順序,在用Iterator遍歷LinkedHashMap時,先得到的記錄肯定是先插入的,也可以在構造時帶引數,按照訪問次序排序。

(4) TreeMap:TreeMap實現SortedMap介面,能夠把它儲存的記錄根據鍵排序,預設是按鍵值的升序排序,也可以指定排序的比較器,當用Iterator遍歷TreeMap時,得到的記錄是排過序的。如果使用排序的對映,建議使用TreeMap。在使用TreeMap時,key必須實現Comparable介面或者在構造TreeMap傳入自定義的Comparator,否則會在執行時丟擲java.lang.ClassCastException型別的異常。

對於上述四種Map型別的類,要求對映中的key是不可變物件。不可變物件是該物件在建立後它的雜湊值不會被改變。如果物件的雜湊值發生變化,Map物件很可能就定位不到對映的位置了。

通過上面的比較,我們知道了HashMap是Java的Map家族中一個普通成員,鑑於它可以滿足大多數場景的使用條件,所以是使用頻度最高的一個。下文我們主要結合原始碼,從儲存結構、常用方法分析、擴容以及安全性等方面深入講解HashMap的工作原理。

內部實現

搞清楚HashMap,首先需要知道HashMap是什麼,即它的儲存結構-欄位;其次弄明白它能幹什麼,即它的功能實現-方法。下面我們針對這兩個方面詳細展開講解。

儲存結構

從結構實現來講,HashMap是陣列+連結串列+紅黑樹(JDK1.8增加了紅黑樹部分)實現的,如下如所示。

HashMap結構圖

欄位

我們先了解一下HashMap的基礎欄位和屬性

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 預設table容量16
static final int MAXIMUM_CAPACITY = 1 << 30; //容量最大值為2的30次方
static final float DEFAULT_LOAD_FACTOR = 0.75f;//預設負載因子
static final int MIN_TREEIFY_CAPACITY = 64; //最小使用紅黑樹的容量

transient Node<K,V>[] table;//用於存放Node的陣列
transient int size; //hashmap實際儲存的Node(鍵值對)個數
transient int modCount; //記錄HashMap內部結構發生變化的次數
int threshold; //HashMap所能容納的最大資料量的Node(鍵值對)個數
final float loadFactor;//負載因子
複製程式碼

HashMap類中有一個非常重要的欄位,就是 Node[] table,即雜湊桶陣列,明顯它是一個Node的陣列。我們來看Node[JDK1.8]是何物。

static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;    //用來定位陣列索引位置
        final K key;
        V value;
        Node<K,V> next;   //連結串列的下一個node

        Node(int hash, K key, V value, Node<K,V> next) { ... }
        public final K getKey(){ ... }
        public final V getValue() { ... }
        public final String toString() { ... }
        public final int hashCode() { ... }
        public final V setValue(V newValue) { ... }
        public final boolean equals(Object o) { ... }
}
複製程式碼

Node是HashMap的一個內部類,實現了Map.Entry介面,本質是就是一個對映(鍵值對)。上圖中的每個黑色圓點就是一個Node物件。

Node[] table的初始化長度length(預設值是16),loadFactor為負載因子(預設值是0.75),threshold是HashMap所能容納的最大資料量的Node(鍵值對)個數。threshold = length * Load factor。也就是說,在陣列定義好長度之後,負載因子越大,所能容納的鍵值對個數越多。

結合負載因子的定義公式可知,threshold就是在此Load factor和length(陣列長度)對應下允許的最大元素數目,超過這個數目就重新resize(擴容),擴容後的HashMap容量是之前容量的兩倍。預設的負載因子0.75是對空間和時間效率的一個平衡選擇,建議大家不要修改,除非在時間和空間比較特殊的情況下,如果記憶體空間很多而又對時間效率要求很高,可以降低負載因子Load factor的值;相反,如果記憶體空間緊張而對時間效率要求不高,可以增加負載因子loadFactor的值,這個值可以大於1。

size這個欄位其實很好理解,就是HashMap中實際存在的鍵值對數量。注意和table的長度length、容納最大鍵值對數量threshold的區別。而modCount欄位主要用來記錄HashMap內部結構發生變化的次數,主要用於迭代的快速失敗。強調一點,內部結構發生變化指的是結構發生變化,例如put新鍵值對,但是某個key對應的value值被覆蓋不屬於結構變化。

方法細節

定位雜湊桶陣列索引位置

不管增加、刪除、查詢鍵值對,定位到雜湊桶陣列的位置都是很關鍵的第一步。前面說過HashMap的資料結構是“陣列+連結串列+紅黑樹”的結合,所以我們當然希望這個HashMap裡面的元素位置儘量分佈均勻些,儘量使得每個位置上的元素數量只有一個,那麼當我們用hash演算法求得這個位置的時候,馬上就可以知道對應位置的元素就是我們要的,不用遍歷連結串列/紅黑樹,大大優化了查詢的效率。HashMap定位陣列索引位置,直接決定了hash方法的離散效能。下面是定位雜湊桶陣列的原始碼:

// 程式碼1
static final int hash(Object key) { // 計算key的hash值
    int h;
    // 1.先拿到key的hashCode值; 2.將hashCode的高16位參與運算
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
// 程式碼2
int n = tab.length;
// 將(tab.length - 1) 與 hash值進行&運算
int index = (n - 1) & hash;
複製程式碼

整個過程本質上就是三步:

  • 拿到key的hashCode值
  • 將hashCode的高位參與運算,重新計算hash值
  • 將計算出來的hash值與(table.length - 1)進行&運算

對於任意給定的物件,只要它的hashCode()返回值相同,那麼計算得到的hash值總是相同的。為了使元素在陣列桶table裡分佈均勻一點,我們首先想到的就是把hash值對table長度取模運算

但是模運算消耗還是比較大的,我們知道計算機比較快的運算為位運算,因此JDK團隊對取模運算進行了優化,使用上面程式碼2的位與運算來代替模運算。這個方法非常巧妙,它通過 “(table.length -1) & h” 來得到該物件的索引位置,這個優化是基於以下公式:x mod 2^n = x & (2^n - 1)。我們知道HashMap底層陣列的長度總是2的n次方,並且取模運算為“h mod table.length”,對應上面的公式,可以得到該運算等同於**“h mod table.length = h & (table.length - 1)”**。這是HashMap在速度上的優化,因為&比%具有更高的效率。

在JDK1.8的實現中,還優化了高位運算的演算法,將hashCode的高16位與hashCode進行異或運算,主要是為了在table的length較小的時候,讓高位也參與運算,並且不會有太大的開銷。

下圖是一個簡單的例子,table長度為16:

java基礎:HashMap — 原始碼分析

put方法

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
 
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {
    Node<K,V>[] tab; Node<K,V> p; int n, i;
    // table是否為空或者length等於0, 如果是則呼叫resize方法進行初始化
    if ((tab = table) == null || (n = tab.length) == 0)
        n = (tab = resize()).length;    
    // 通過hash值計算索引位置, 如果table表該索引位置節點為空則新增一個
    if ((p = tab[i = (n - 1) & hash]) == null)// 將索引位置的頭節點賦值給p
        tab[i] = newNode(hash, key, value, null);
    else {  // table表該索引位置不為空
        Node<K,V> e; K k;
        if (p.hash == hash && // 判斷p節點的hash值和key值是否跟傳入的hash值和key值相等
            ((k = p.key) == key || (key != null && key.equals(k)))) 
            e = p;  // 如果相等, 則p節點即為要查詢的目標節點,賦值給e
        // 判斷p節點是否為TreeNode, 如果是則呼叫紅黑樹的putTreeVal方法查詢目標節點
        else if (p instanceof TreeNode) 
            e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value);
        else {	// 走到這代表p節點為普通連結串列節點
            for (int binCount = 0; ; ++binCount) {  // 遍歷此連結串列, binCount用於統計節點數
                if ((e = p.next) == null) { // p.next為空代表不存在目標節點則新增一個節點插入連結串列尾部
                    p.next = newNode(hash, key, value, null);
                    // 計算節點是否超過8個, 減一是因為迴圈是從p節點的下一個節點開始的
                    if (binCount >= TREEIFY_THRESHOLD - 1)
                        treeifyBin(tab, hash);// 如果超過8個,呼叫treeifyBin方法將該連結串列轉換為紅黑樹
                    break;
                }
                if (e.hash == hash && // e節點的hash值和key值都與傳入的相等, 則e即為目標節點,跳出迴圈
                    ((k = e.key) == key || (key != null && key.equals(k)))) 
                    break;
                p = e;  // 將p指向下一個節點
            }
        }
        // e不為空則代表根據傳入的hash值和key值查詢到了節點,將該節點的value覆蓋,返回oldValue
        if (e != null) { 
            V oldValue = e.value;
            if (!onlyIfAbsent || oldValue == null)
                e.value = value;
            afterNodeAccess(e); // 用於LinkedHashMap
            return oldValue;
        }
    }
    ++modCount;
    if (++size > threshold) // 插入節點後超過閾值則進行擴容
        resize();
    afterNodeInsertion(evict);  // 用於LinkedHashMap
    return null;
}
複製程式碼
  1. 校驗table是否為空或者length等於0,如果是則呼叫resize方法進行初始化
  2. 通過hash值計算索引位置,將該索引位置的頭節點賦值給p節點,如果該索引位置節點為空則使用傳入的引數新增一個節點並放在該索引位置
  3. 判斷p節點的key和hash值是否跟傳入的相等,如果相等, 則p節點即為要查詢的目標節點,將p節點賦值給e節點
  4. 如果p節點不是目標節點,則判斷p節點是否為TreeNode,如果是則呼叫紅黑樹的putTreeVal方法查詢目標節點
  5. 走到這代表p節點為普通連結串列節點,則呼叫普通的連結串列方法進行查詢,並定義變數binCount來統計該連結串列的節點數
  6. 如果p的next節點為空時,則代表找不到目標節點,則新增一個節點並插入連結串列尾部,並校驗節點數是否超過8個,如果超過則呼叫treeifyBin方法將連結串列節點轉為紅黑樹節點
  7. 如果遍歷的e節點存在hash值和key值都與傳入的相同,則e節點即為目標節點,跳出迴圈
  8. 如果e節點不為空,則代表目標節點存在,使用傳入的value覆蓋該節點的value,並返回oldValue
  9. 如果插入節點後節點數超過閾值,則呼叫resize方法進行擴容

resize方法

final Node<K,V>[] resize() {
    Node<K,V>[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;
    if (oldCap > 0) {   // 老table不為空
        if (oldCap >= MAXIMUM_CAPACITY) {      // 老table的容量超過最大容量值
            threshold = Integer.MAX_VALUE;  // 設定閾值為Integer.MAX_VALUE
            return oldTab;
        }
        // 如果容量*2<最大容量並且>=16, 則將閾值設定為原來的兩倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)   
            newThr = oldThr << 1; // double threshold
    }
    else if (oldThr > 0) // 老表的容量為0, 老表的閾值大於0, 是因為初始容量被放入閾值
        newCap = oldThr;	// 則將新表的容量設定為老表的閾值 
    else {	// 老表的容量為0, 老表的閾值為0, 則為空表,設定預設容量和閾值
        newCap = DEFAULT_INITIAL_CAPACITY; 
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }
    if (newThr == 0) {  // 如果新表的閾值為空, 則通過新的容量*負載因子獲得閾值
        float ft = (float)newCap * loadFactor;
        newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                  (int)ft : Integer.MAX_VALUE);
    }
    threshold = newThr; // 將當前閾值賦值為剛計算出來的新的閾值
    @SuppressWarnings({"rawtypes","unchecked"})
    // 定義新表,容量為剛計算出來的新容量
    Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
    table = newTab; // 將當前的表賦值為新定義的表
    if (oldTab != null) {   // 如果老表不為空, 則需遍歷將節點賦值給新表
        for (int j = 0; j < oldCap; ++j) {
            Node<K,V> e;
            if ((e = oldTab[j]) != null) {  // 將索引值為j的老表頭節點賦值給e
                oldTab[j] = null; // 將老表的節點設定為空, 以便垃圾收集器回收空間
                // 如果e.next為空, 則代表老表的該位置只有1個節點, 
                // 通過hash值計算新表的索引位置, 直接將該節點放在該位置
                if (e.next == null) 
                    newTab[e.hash & (newCap - 1)] = e;
                else if (e instanceof TreeNode)
                	 // 呼叫treeNode的hash分佈(跟下面最後一個else的內容幾乎相同)
                    ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); 
                else { // preserve order
                    Node<K,V> loHead = null, loTail = null; // 儲存跟原索引位置相同的節點
                    Node<K,V> hiHead = null, hiTail = null; // 儲存索引位置為:原索引+oldCap的節點
                    Node<K,V> next;
                    do {
                        next = e.next;
                        //如果e的hash值與老表的容量進行與運算為0,則擴容後的索引位置跟老表的索引位置一樣
                        if ((e.hash & oldCap) == 0) {   
                            if (loTail == null) // 如果loTail為空, 代表該節點為第一個節點
                                loHead = e; // 則將loHead賦值為第一個節點
                            else    
                                loTail.next = e;    // 否則將節點新增在loTail後面
                            loTail = e; // 並將loTail賦值為新增的節點
                        }
                        //如果e的hash值與老表的容量進行與運算為1,則擴容後的索引位置為:老表的索引位置+oldCap
                        else {  
                            if (hiTail == null) // 如果hiTail為空, 代表該節點為第一個節點
                                hiHead = e; // 則將hiHead賦值為第一個節點
                            else
                                hiTail.next = e;    // 否則將節點新增在hiTail後面
                            hiTail = e; // 並將hiTail賦值為新增的節點
                        }
                    } while ((e = next) != null);
                    if (loTail != null) {
                        loTail.next = null; // 最後一個節點的next設為空
                        newTab[j] = loHead; // 將原索引位置的節點設定為對應的頭結點
                    }
                    if (hiTail != null) {
                        hiTail.next = null; // 最後一個節點的next設為空
                        newTab[j + oldCap] = hiHead; // 將索引位置為原索引+oldCap的節點設定為對應的頭結點
                    }
                }
            }
        }
    }
    return newTab;
}
複製程式碼
  1. 如果老表的容量大於0,判斷老表的容量是否超過最大容量值:如果超過則將閾值設定為Integer.MAX_VALUE,並直接返回老表(此時oldCap * 2比Integer.MAX_VALUE大,因此無法進行重新分佈,只是單純的將閾值擴容到最大);如果容量 * 2小於最大容量並且不小於16,則將閾值設定為原來的兩倍。
  2. 如果老表的容量為0,老表的閾值大於0,這種情況是傳了容量的new方法建立的空表,將新表的容量設定為老表的閾值(這種情況發生在新建立的HashMap第一次put時,該HashMap初始化的時候傳了初始容量,由於HashMap並沒有capacity變數來存放容量值,因此傳進來的初始容量是存放在threshold變數上(檢視HashMap(int initialCapacity, float loadFactor)方法),因此此時老表的threshold的值就是我們要新建立的HashMap的capacity,所以將新表的容量設定為老表的閾值。
  3. 如果老表的容量為0,老表的閾值為0,這種情況是沒有傳容量的new方法建立的空表,將閾值和容量設定為預設值。
  4. 如果新表的閾值為空,則通過新的容量 * 負載因子獲得閾值(這種情況是初始化的時候傳了初始容量,跟第2點相同情況,也只有走到第2點才會走到該情況)。
  5. 將當前閾值設定為剛計算出來的新的閾值,定義新表,容量為剛計算出來的新容量,將當前的表設定為新定義的表。
  6. 如果老表不為空,則需遍歷所有節點,將節點賦值給新表。
  7. 將老表上索引為j的頭結點賦值給e節點,並將老表上索引為j的節點設定為空。
  8. 如果e的next節點為空,則代表老表的該位置只有1個節點,通過hash值計算新表的索引位置,直接將該節點放在新表的該位置上。
  9. 如果e的next節點不為空,並且e為TreeNode,則呼叫split方法進行hash分佈。
  10. 如果e的next節點不為空,並且e為普通的連結串列節點,則進行普通的hash分佈。
  11. 如果e的hash值與老表的容量(為一串只有1個為2的二進位制數,例如16為0000 0000 0001 0000)進行位與運算為0,則說明e節點擴容後的索引位置跟老表的索引位置一樣,進行連結串列拼接操作:如果loTail為空,代表該節點為第一個節點,則將loHead賦值為該節點;否則將節點新增在loTail後面,並將loTail賦值為新增的節點。
  12. 如果e的hash值與老表的容量(為一串只有1個為2的二進位制數,例如16為0000 0000 0001 0000)進行位與運算不為0,則說明e節點擴容後的索引位置為:老表的索引位置+oldCap,進行連結串列拼接操作:如果hiTail為空,代表該節點為第一個節點,則將hiHead賦值為該節點;否則將節點新增在hiTail後面,並將hiTail賦值為新增的節點。
  13. 老表節點重新hash分佈在新表結束後,如果loTail不為空(說明老表的資料有分佈到新表上原索引位置的節點),則將最後一個節點的next設為空,並將新表上原索引位置的節點設定為對應的頭結點;如果hiTail不為空(說明老表的資料有分佈到新表上原索引+oldCap位置的節點),則將最後一個節點的next設為空,並將新表上索引位置為原索引+oldCap的節點設定為對應的頭結點。
  14. 返回新表。

看完之後可能有個疑問,為什麼擴容後,節點的hash為什麼只可能分佈在原索引位置與原索引+oldCap位置? 我們來梳理一下,索引位置的計算主要有三步:**取key的hashCode值、高位運算、取模運算。**當我們Node點不變時,第一第二步得到的結果hashcode是不變的,那麼變化就在最後的取模運算h & (table.length - 1)。我們知道陣列桶table的擴容是2的倍數。舉個例子,假設老表的容量為16,即oldCap=16,此時的table.length-1為01111(其餘高位0省略),擴容後新表容量為16*2=32。擴容後的table.length-1為11111(其餘高位0省略)。此時的差異就在倒數第五位的數值。如果hashcode在倒數第5位為0(下圖b的key1),則擴容後進行取模運算時,位置不變。反之如果hashcode在倒數第5位為1(下圖b的key2),則與相比原來,增加了2^5(16),也就是oldCap的數值。

java基礎:HashMap — 原始碼分析
java基礎:HashMap — 原始碼分析

這就是JDK1.8相對於JDK1.7做的優化,順便提一下在JDK1.7中的邏輯,因為這部分有不少細節改動。

resize(JDK1.7)
void resize(int newCapacity) {   //傳入新的容量
     Entry[] oldTable = table;    //引用擴容前的Entry陣列
     int oldCapacity = oldTable.length;         
     if (oldCapacity == MAXIMUM_CAPACITY) {  //擴容前的陣列大小如果已經達到最大(2^30)了
         threshold = Integer.MAX_VALUE; //修改閾值為int的最大值(2^31-1),這樣以後就不會擴容了
         return;
     }
  
     Entry[] newTable = new Entry[newCapacity];  //初始化一個新的Entry陣列
     transfer(newTable);                         //!!將資料轉移到新的Entry陣列裡
     table = newTable;                           //HashMap的table屬性引用新的Entry陣列
     threshold = (int)(newCapacity * loadFactor);//修改閾值
 }

void transfer(Entry[] newTable) {
     Entry[] src = table;                   //src引用了舊的Entry陣列
     int newCapacity = newTable.length;
     for (int j = 0; j < src.length; j++) { //遍歷舊的Entry陣列
         Entry<K,V> e = src[j];             //取得舊Entry陣列的每個元素
         if (e != null) {
             src[j] = null;//釋放舊Entry陣列的物件引用(for迴圈後,舊的Entry陣列不再引用任何物件)
             do {
                 Entry<K,V> next = e.next;
                 int i = indexFor(e.hash, newCapacity); //!!重新計算每個元素在陣列中的位置
                 e.next = newTable[i]; //標記[1]
                newTable[i] = e;      //將元素放在陣列上
                 e = next;             //訪問下一個Entry鏈上的元素
             } while (e != null);
         }
     }
 }
複製程式碼

newTable[i]的引用賦給了e.next,也就是使用了單連結串列的頭插入方式,同一位置上新元素總會被放在連結串列的頭部位置;這樣先放在一個索引上的元素終會被放到Entry鏈的尾部(如果發生了hash衝突的話)。 下面舉個例子說明下擴容過程。假設了我們的hash演算法就是簡單的用key mod 一下表的大小(也就是陣列的長度)。其中的雜湊桶陣列table的size=2, 所以key = 3、7、5,put順序依次為 5、7、3。在mod 2以後都衝突在table[1]這裡了。這裡假設負載因子 loadFactor=1,即當鍵值對的實際大小size 大於 table的實際大小時進行擴容。接下來的三個步驟是雜湊桶陣列 resize成4,然後所有的Node重新rehash的過程。

JDK1.7擴容邏輯

由此可以看出,JDK1.8的擴容並不會導致連結串列順序的倒序。而且JDK1.7擴容時導致的倒序還會在併發的多執行緒使用場景中使用HashMap可能造成死迴圈,這個在接下來的安全性中會詳細講。

get方法

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
 
final Node<K,V> getNode(int hash, Object key) {
    Node<K,V>[] tab; Node<K,V> first, e; int n; K k;
    // table不為空 && table長度大於0 && table索引位置(根據hash值計算出)不為空
    if ((tab = table) != null && (n = tab.length) > 0 &&
        (first = tab[(n - 1) & hash]) != null) {    
        if (first.hash == hash && // always check first node
            ((k = first.key) == key || (key != null && key.equals(k)))) 
            return first;	// first的key等於傳入的key則返回first物件
        if ((e = first.next) != null) { // 向下遍歷
            if (first instanceof TreeNode)  // 判斷是否為TreeNode
            	// 如果是紅黑樹節點,則呼叫紅黑樹的查詢目標節點方法getTreeNode
                return ((TreeNode<K,V>)first).getTreeNode(hash, key);
            // 走到這代表節點為連結串列節點
            do { // 向下遍歷連結串列, 直至找到節點的key和傳入的key相等時,返回該節點
                if (e.hash == hash &&
                    ((k = e.key) == key || (key != null && key.equals(k))))
                    return e;
            } while ((e = e.next) != null);
        }
    }
    return null;    // 找不到符合的返回空
}
複製程式碼
  1. 先對table進行校驗,校驗是否為空,length是否大於0
  2. 使用table.length - 1和hash值進行位與運算,得出在table上的索引位置,將該索引位置的節點賦值給first節點,校驗該索引位置是否為空
  3. 檢查first節點的hash值和key是否和入參的一樣,如果一樣則first即為目標節點,直接返回first節點
  4. 如果first的next節點不為空則繼續遍歷
  5. 如果first節點為TreeNode,則呼叫getTreeNode方法(見下文程式碼塊1)查詢目標節點
  6. 如果first節點不為TreeNode,則呼叫普通的遍歷連結串列方法查詢目標節點
  7. 如果查詢不到目標節點則返回空

安全性

在多執行緒使用場景中,應該儘量避免使用執行緒不安全的HashMap,而使用執行緒安全的ConcurrentHashMap。那麼為什麼說HashMap是執行緒不安全的,主要有兩個方面:
1. put的時候多執行緒導致的資料不一致
比如有兩個執行緒A和B,首先A希望插入一個key-value對到HashMap中,首先計算記錄所要落到的 hash桶的索引座標,然後獲取到該桶裡面的連結串列頭結點,此時執行緒A的時間片用完了,而此時執行緒B被排程得以執行,和執行緒A一樣執行,只不過執行緒B成功將記錄插到了桶裡面,假設執行緒A插入的記錄計算出來的 hash桶索引和執行緒B要插入的記錄計算出來的 hash桶索引是一樣的,那麼當執行緒B成功插入之後,執行緒A再次被排程執行時,它依然持有過期的連結串列頭但是它對此一無所知,以至於它認為它應該這樣做,如此一來就覆蓋了執行緒B插入的記錄,這樣執行緒B插入的記錄就憑空消失了,造成了資料不一致的行為。
2. resize而引起死迴圈(JDK1.8已經不會出現該問題)
這種情況發生在JDK1.7 中HashMap自動擴容時,當2個執行緒同時檢測到元素個數超過 陣列大小 × 負載因子。此時2個執行緒會在put()方法中呼叫了resize(),兩個執行緒同時修改一個連結串列結構會產生一個迴圈連結串列(JDK1.7中,會出現resize前後元素順序倒置的情況)。接下來再想通過get()獲取某一個元素,就會出現死迴圈。 下面舉例子說明在併發的多執行緒使用場景中使用HashMap可能造成死迴圈。程式碼例子如下:

public class HashMapInfiniteLoop {  

    private static HashMap<Integer,String> map = new HashMap<Integer,String>(2,0.75f);  
    public static void main(String[] args) {  
        map.put(5, "C");  

        new Thread("Thread1") {  
            public void run() {  
                map.put(7, "B");  
                System.out.println(map);  
            };  
        }.start();  
        new Thread("Thread2") {  
            public void run() {  
                map.put(3, "A");  
                System.out.println(map);  
            };  
        }.start();        
    }  
}

複製程式碼

其中,map初始化為一個長度為2的陣列,loadFactor=0.75,threshold=2*0.75=1,也就是說當put第二個key的時候,map就需要進行resize。

通過設定斷點讓執行緒1和執行緒2同時debug到transfer方法(3.3小節程式碼塊)的首行。注意此時兩個執行緒已經成功新增資料。放開thread1的斷點至transfer方法的“Entry next = e.next;” 這一行;然後放開執行緒2的的斷點,讓執行緒2進行resize。結果如下圖。

java基礎:HashMap — 原始碼分析

注意,Thread1的 e 指向了key(3),而next指向了key(7),其線上程二rehash後,指向了執行緒二重組後的連結串列。

執行緒一被排程回來執行,先是執行 newTalbe[i] = e, 然後是e = next,導致了e指向了key(7),而下一次迴圈的next = e.next導致了next指向了key(3)。

java基礎:HashMap — 原始碼分析

e.next = newTable[i] 導致 key(3).next 指向了 key(7)。注意:此時的key(7).next 已經指向了key(3), 環形連結串列就這樣出現了。

java基礎:HashMap — 原始碼分析

於是,當我們用執行緒一呼叫map.get(11)時,悲劇就出現了——Infinite Loop。

1.7和1.8的對比

HashMap中,如果key經過hash演算法得出的陣列索引位置全部不相同,即Hash演算法非常好,那樣的話,getKey方法的時間複雜度就是O(1),如果Hash演算法技術的結果碰撞非常多,假如Hash算極其差,所有的Hash演算法結果得出的索引位置一樣,那樣所有的鍵值對都集中到一個桶中,或者在一個連結串列中,或者在一個紅黑樹中,時間複雜度分別為O(n)和O(lgn)。 鑑於JDK1.8做了多方面的優化,總體效能優於JDK1.7。具體我就不在這方面贅述了,可以看下美團大佬的文章,裡面有測試Java 8系列之重新認識HashMap

HashMap和HashTable對比

  1. HashMap允許key和value為null,Hashtable不允許。
  2. HashMap的預設初始容量為16,Hashtable為11。
  3. HashMap的擴容為原來的2倍,Hashtable的擴容為原來的2倍加1。
  4. HashMap是非執行緒安全的,Hashtable是執行緒安全的。
  5. HashMap的hash值重新計算過,Hashtable直接使用hashCode。
  6. HashMap去掉了Hashtable中的contains方法。
  7. HashMap繼承自AbstractMap類,Hashtable繼承自Dictionary類。

總結

  1. HashMap的底層是個Node陣列(Node<K,V>[] table),在陣列的具體索引位置,如果存在多個節點,則可能是以連結串列或紅黑樹的形式存在。
  2. 增加、刪除、查詢鍵值對時,定位到雜湊桶陣列的位置是很關鍵的一步,原始碼中是通過下面3個操作來完成這一步:1)拿到key的hashCode值;2)將hashCode的高位參與運算,重新計算hash值;3)將計算出來的hash值與(table.length - 1)進行&運算。
  3. HashMap的預設初始容量(capacity)是16,capacity必須為2的冪次方;預設負載因子(load factor)是0.75;實際能存放的節點個數(threshold,即觸發擴容的閾值)= capacity * load factor。
  4. HashMap在觸發擴容後,閾值會變為原來的2倍,並且會進行重hash,重hash後索引位置index的節點的新分佈位置最多隻有兩個:原索引位置或原索引+oldCap位置。例如capacity為16,索引位置5的節點擴容後,只可能分佈在新報索引位置5和索引位置21(5+16)。
  5. 當同一個索引位置的節點在增加後達到9個時,會觸發連結串列節點(Node)轉紅黑樹節點(TreeNode,間接繼承Node),轉成紅黑樹節點後,其實連結串列的結構還存在,通過next屬性維持。連結串列節點轉紅黑樹節點的具體方法為原始碼中的treeifyBin(Node<K,V>[] tab, int hash)方法。
  6. 當同一個索引位置的節點在移除後達到6個時,並且該索引位置的節點為紅黑樹節點,會觸發紅黑樹節點轉連結串列節點。紅黑樹節點轉連結串列節點的具體方法為原始碼中的untreeify(HashMap<K,V> map)方法。 HashMap在JDK1.8之後不再有死迴圈的問題,JDK1.8之前存在死迴圈的根本原因是在擴容後同一索引位置的節點順序會反掉。
  7. 擴容是一個特別耗效能的操作,所以當程式設計師在使用HashMap的時候,估算map的大小,初始化的時候給一個大致的數值,避免map進行頻繁的擴容。
  8. 負載因子是可以修改的,也可以大於1,但是建議不要輕易修改,除非情況非常特殊。
  9. HashMap是執行緒不安全的,不要在併發的環境中同時操作HashMap,建議使用ConcurrentHashMap。

相關文章