HashMap，難的不在Map，而在Hash

沉默王二發表於2019-03-18

原文網址 : https://juejin.im/post/5c8f39586fb9a070d20f1384

在平常的開發當中，HashMap是我最常用的Map類（沒有之一），它支援null鍵和null值，是絕大部分利用鍵值對存取場景的首選。需要切記的一點是——HashMap不是執行緒安全的資料結構，所以不要在多執行緒場景中應用它。

通常情況下，我們使用Map的主要目的是用來放入（put）、訪問（get）或者刪除（remove），而對順序沒有特別的要求——HashMap在這種情況下就是最好的選擇。

01、Hash

對於HashMap來說，難理解的不在於Map，而在於Hash。

Hash，一般譯作“雜湊”，也有直接音譯為“雜湊”的，這玩意什麼意思呢？就是把任意長度的資料通過一種演算法對映到固定長度的域上（雜湊值）。

再直觀一點，就是對一串資料wang進行雜糅，輸出另外一段固定長度的資料er——作為資料wang的特徵。我們通常用一串指紋來對映某一個人，別小瞧手指頭那麼大點的指紋，在你所處的範圍內很難找出第二個和你相同的（人的雜湊演算法也好厲害，有沒有？）。

對於任意兩個不同的資料塊，其雜湊值相同的可能性極小，也就是說，對於一個給定的資料塊，找到和它雜湊值相同的資料塊極為困難。再者，對於一個資料塊，哪怕只改動它的一個位元位，其雜湊值的改動也會非常的大——這正是Hash存在的價值！

在Java中，String字串的雜湊值計算方法如下：

public int hashCode() {
    int h = hash;
    if (h == 0 && value.length > 0) {
        char val[] = value;

        for (int i = 0; i < value.length; i++) {
            h = 31 * h + val[i];
        }
        hash = h;
    }
    return h;
}
複製程式碼

看得懂看不懂都沒關係，我們就當是一個“乘加迭代運算”的演算法。藉此機會，我們來看一下“沉”、“默”、“王”、“二”四個字串的雜湊值是多少。

String[] cmower = { "沉", "默", "王", "二" };
for (String s : cmower) {
	System.out.println(s.hashCode());
}
複製程式碼

輸出的結果如下（5位數字）：

沉的雜湊值：27785 默的雜湊值：40664 王的雜湊值：29579 二的雜湊值：20108

對於HashMap來說，Hash（key，鍵位）存在的目的是為了加速鍵值對的查詢（你想，如果電話薄不是按照人名的首字母排列的話，找一個人該多困難「我的微信好友有不少在暱稱前加了A，好狠」）。通常情況下，我們習慣使用String字串來作為Map的鍵，請看以下程式碼：

Map<String, String> map = new HashMap<>();
String[] cmower = { "沉", "默", "王", "二" };
for (String s : cmower) {
	map.put(s, s + "月入25萬");
}
複製程式碼

那HashMap會真的會將String字串作為實際的鍵嗎？我們來看HashMap的put方法原始碼：

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}
複製程式碼

雖然只有一個putVal()方法的呼叫，但是你應該已經發現，HashMap內部會把key進行一個hash運算，具體程式碼如下：

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}
複製程式碼

假如key是String字串的話，hash()會先獲取字串的hashCode（雜湊值），再對雜湊值進行位於運算，最終的值為HashMap實際的鍵（int值）。

既然HashMap在put的時候使用鍵的雜湊值作為實際的鍵，那麼在根據鍵獲取值的時候，自然也要先對get(key)方法的key進行hash運算，請看以下程式碼：

public V get(Object key) {
    Node<K,V> e;
    return (e = getNode(hash(key), key)) == null ? null : e.value;
}
複製程式碼

02、雜湊值衝突怎麼解決

儘管雜湊值很難重複，我們還是要明白，這種轉換是一種壓縮對映，也就是，雜湊值的空間通常遠小於輸入的空間，不同的輸入可能會雜湊成相同的輸出。

也就是說，key1 ≠ key2，但function(key1)有可能等於function(key2)——雜湊值衝突了。怎麼辦？

最容易想到的解決辦法就是：當關鍵字key2的雜湊值value與key1的雜湊值value出現衝突時，以value為基礎，產生另一個雜湊值value1，如果value1與value不再衝突，則將value1作為key2的雜湊值。

依照這個辦法，總會找到不衝突的那個。

03、初始容量和負載因子

HashMap的構造方法主要有三種：

public HashMap(int initialCapacity, float loadFactor) {
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}


public HashMap(int initialCapacity) {
    this(initialCapacity, DEFAULT_LOAD_FACTOR);
}


public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
}
複製程式碼

其中initialCapacity為初始容量（預設為1 << 4 = 16），loadFactor為負載因子（預設為0.75）。初始容量是HashMap在建立時的容量（HashMap中桶的數量）；負載因子是HashMap在其容量自動增加之前可以達到多滿的一種尺度。

當HashMap中的條目數超出了負載因子與當前容量的乘積時，則要對HashMap擴容，增加大約兩倍的桶數。

通常，預設的負載因子 (0.75) 是時間和空間成本上的一種折衷。負載因子過高雖然減少了空間開銷，但同時增加了查詢成本。如果負載因子過小，則初始容量要增大，否則會導致頻繁的擴容。

在設定初始容量時應該考慮到對映中所需的條目數及其載入因子，以便最大限度地減少擴容的操作次數。

如果能夠提前預知要存取的鍵值對數量的話，可以考慮設定合適的初始容量（大於“預估元素數量 / 負載因子”，並且是2的冪數）。

04、小結

在之前很長的一段時間內，我對HashMap的認知僅限於會用它的put(key, value)和value = get(key)。

但，當我強迫自己每週要輸出一篇Java方面的技術文章後，我對HashMap真的“深入淺出”了——雜湊值（雜湊值）、雜湊衝突（雜湊衝突）、初始容量和負載因子，竟然能站在我面前一直笑——而原先，我見到這些關鍵字就逃之夭夭了，我怕見到它們。

PS：歡迎我的公眾號「沉默王二」，一個不止寫程式碼的程式設計師，還寫有趣有益的文字，給不喜歡嚴肅的你。

HashMap、Hash Table、ConcurrentHashMap
2019-08-03
HashMap
Hash Map集合和Hash Set集合
2021-01-30
5、Map集合——HashMap
2020-11-13
HashMap
【java】【Map】HashMap、Hashtable、Collections
2018-05-02
JavaHashMap
HashMap中的hash演算法中的幾個疑問
2019-07-18
HashMap演算法
【資料結構】30、hashmap=》hash 計算方式
2019-06-26
資料結構HashMap
《美國營養學期刊》：研究顯示減肥關鍵不在運動而在於飲食
2019-07-05
Java HashMap和Go map原始碼對比
2018-12-01
JavaHashMapGo原始碼
HashMap原始碼：聊聊Map的遍歷效能問題（一）
2021-06-08
HashMap原始碼
【JavaSE】Map集合，HashMap的常用方法put、get的原始碼解析
2019-02-20
JavaHashMap原始碼
看完這個，Java IO從此不在難
2018-09-11
Java
天下無難試之HashMap面試刁難大全
2018-03-24
HashMap面試
Java常用資料結構之Map-HashMap
2018-11-07
Java資料結構HashMap
無處不在的 Kubernetes，難用的問題解決了嗎？
2021-11-14
Go 為什麼不在語言層面支援 map 併發？
2022-01-12
Go
Java 從 Map 到 HashMap 的一步步實現
2020-12-23
JavaHashMap
全網把Map中的hash()分析的最透徹的文章，別無二家。
2018-03-27
原始碼閱讀(19)：Java中主要的Map結構——HashMap容器（下1）
2020-01-13
原始碼JavaHashMap
深入理解HashMap(二): 關鍵原始碼逐行分析之hash演算法
2019-01-19
HashMap原始碼演算法
hashmap遍歷時用map.remove方法為什麼會報錯？
2019-04-03
HashMapREM
打包的3種hash值你知道嗎？當年我校招時被這題難倒了！
2022-02-05
hash
2024-05-24
不在models.py中的models
2018-08-09
如何遍歷 HashMap，遍歷HashMap 的 5 種最佳方式
2020-10-18
HashMap
hash hacker
2024-10-05
Map集合&&Map集合的不同遍歷【keySet()&&entrySet()】
2020-11-07
HashMap的底層原理
2021-05-15
HashMap
祂無處不在 -- 疾病的處理.
2020-08-04
url中#(hash)的含義
2019-02-16
iOS中的isEqual和hash
2019-03-01
iOS
返回hash 型別的json
2020-04-06
型別JSON
Go中的Map
2018-08-07
Go
朋友吐槽我為什麼這麼傻不在源生成器中用string.GetHashCode, 而要用一個不夠最佳化的hash方法
2024-08-10
“立志、崇實、擔當”六字校訓，而在這些人物之中
2022-01-17
三，TreeMap和HashMap,TreeSet和HashMap的區別以及方法使用上的不同
2024-10-20
HashMap
CSS 火焰？不在話下
2019-03-27
CSS
hashMap探析
2020-05-29
HashMap
HashMap原理
2022-01-14
HashMap

HashMap，難的不在Map，而在Hash

01、Hash

02、雜湊值衝突怎麼解決

03、初始容量和負載因子

04、小結

相關文章