Java HashMap工作原理深入探討

ImportNew發表於2015-09-02

大部分Java開發者都在使用Map，特別是HashMap。HashMap是一種簡單但強大的方式去儲存和獲取資料。但有多少開發者知道HashMap內部如何工作呢？幾天前，我閱讀了java.util.HashMap的大量原始碼（包括Java 7 和Java 8），來深入理解這個基礎的資料結構。在這篇文章中，我會解釋java.util.HashMap的實現，描述Java 8實現中新增的新特性，並討論效能、記憶體以及使用HashMap時的一些已知問題。

內部儲存

Java HashMap類實現了Map<K, V>介面。這個介面中的主要方法包括：

V put(K key, V value)
V get(Object key)
V remove(Object key)
Boolean containsKey(Object key)

HashMap使用了一個內部類Entry<K, V>來儲存資料。這個內部類是一個簡單的鍵值對，並帶有額外兩個資料：

一個指向其他入口（譯者注：引用物件）的引用，這樣HashMap可以儲存類似連結列表這樣的物件。
一個用來代表鍵的雜湊值，儲存這個值可以避免HashMap在每次需要時都重新生成鍵所對應的雜湊值。

下面是Entry<K, V>在Java 7下的一部分程式碼：

static class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;
        int hash;
…
}

HashMap將資料儲存到多個單向Entry連結串列中（有時也被稱為桶bucket或者容器orbins）。所有的列表都被註冊到一個Entry陣列中（Entry<K, V>[]陣列），這個內部陣列的預設長度是16。

下面這幅圖描述了一個HashMap例項的內部儲存，它包含一個nullable物件組成的陣列。每個物件都連線到另外一個物件，這樣就構成了一個連結串列。

所有具有相同雜湊值的鍵都會被放到同一個連結串列（桶）中。具有不同雜湊值的鍵最終可能會在相同的桶中。

當使用者呼叫 put(K key， V value) 或者 get(Object key) 時，程式會計算物件應該在的桶的索引。然後，程式會迭代遍歷對應的列表，來尋找具有相同鍵的Entry物件（使用鍵的equals()方法）。

對於呼叫get()的情況，程式會返回值所對應的Entry物件（如果Entry物件存在）。

對於呼叫put(K key, V value)的情況，如果Entry物件已經存在，那麼程式會將值替換為新值，否則，程式會在單向連結串列的表頭建立一個新的Entry（從引數中的鍵和值）。

桶（連結串列）的索引，是通過map的3個步驟生成的：

首先獲取鍵的雜湊碼。
程式重複雜湊碼，來阻止針對鍵的糟糕的雜湊函式，因為這有可能會將所有的資料都放到內部陣列的相同的索引（桶）上。
程式拿到重複後的雜湊碼，並對其使用陣列長度（最小是1）的位掩碼（bit-mask）。這個操作可以保證索引不會大於陣列的大小。你可以將其看做是一個經過計算的優化取模函式。

下面是生成索引的原始碼：

// the "rehash" function in JAVA 7 that takes the hashcode of the key
static int hash(int h) {
    h ^= (h >>> 20) ^ (h >>> 12);
    return h ^ (h >>> 7) ^ (h >>> 4);
}
// the "rehash" function in JAVA 8 that directly takes the key
static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
    }
// the function that returns the index from the rehashed hash
static int indexFor(int h, int length) {
    return h & (length-1);
}

為了更有效地工作，內部陣列的大小必須是2的冪值。讓我們看一下為什麼：

假設陣列的長度是17，那麼掩碼的值就是16（陣列長度-1）。16的二進位制表示是0…010000，這樣對於任何值H來說，“H & 16”的結果就是16或者0。這意味著長度為17的陣列只能應用到兩個桶上：一個是0，另外一個是16，這樣不是很有效率。但是如果你將陣列的長度設定為2的冪值，例如16，那麼按位索引的工作變成“H & 15”。15的二進位制表示是0…001111，索引公式輸出的值可以從0到15，這樣長度為16的陣列就可以被充分使用了。例如：

如果H = 952，它的二進位制表示是0..01110111000，對應的索引是0…01000 = 8
如果H = 1576，它的二進位制表示是0..011000101000，對應的索引是0…01000 = 8
如果H = 12356146，它的二進位制表示是0..0101111001000101000110010，對應的索引是0…00010 = 2
如果H = 59843，它的二進位制表示是0..01110100111000011，它對應的索引是0…00011 = 3

這種機制對於開發者來說是透明的：如果他選擇一個長度為37的HashMap，Map會自動選擇下一個大於37的2的冪值（64）作為內部陣列的長度。

自動調整大小

在獲取索引後，get()、put()或者remove()方法會訪問對應的連結串列，來檢視針對指定鍵的Entry物件是否已經存在。在不做修改的情況下，這個機制可能會導致效能問題，因為這個方法需要迭代整個列表來檢視Entry物件是否存在。假設內部陣列的長度採用預設值16，而你需要儲存2，000,000條記錄。在最好的情況下，每個連結串列會有125,000個Entry物件（2,000,000/16）。get()、remove()和put()方法在每一次執行時，都需要進行125,000次迭代。為了避免這種情況，HashMap可以增加內部陣列的長度，從而保證連結串列中只保留很少的Entry物件。

當你建立一個HashMap時，你可以通過以下建構函式指定一個初始長度，以及一個loadFactor：

</pre>
public HashMap(int initialCapacity, float loadFactor)
<pre>

如果你不指定引數，那麼預設的initialCapacity的值是16， loadFactor的預設值是0.75。initialCapacity代表內部陣列的連結串列的長度。

當你每次使用put(…)方法向Map中新增一個新的鍵值對時，該方法會檢查是否需要增加內部陣列的長度。為了實現這一點，Map儲存了2個資料：

Map的大小：它代表HashMap中記錄的條數。我們在向HashMap中插入或者刪除值時更新它。
閥值：它等於內部陣列的長度*loadFactor，在每次調整內部陣列的長度時，該閥值也會同時更新。

在新增新的Entry物件之前，put(…)方法會檢查當前Map的大小是否大於閥值。如果大於閥值，它會建立一個新的陣列，陣列長度是當前內部陣列的兩倍。因為新陣列的大小已經發生改變，所以索引函式（就是返回“鍵的雜湊值 & (陣列長度-1)”的位運算結果）也隨之改變。調整陣列的大小會建立兩個新的桶（連結串列），並且將所有現存Entry物件重新分配到桶上。調整陣列大小的目標在於降低連結串列的大小，從而降低put()、remove()和get()方法的執行時間。對於具有相同雜湊值的鍵所對應的所有Entry物件來說，它們會在調整大小後分配到相同的桶中。但是，如果兩個Entry物件的鍵的雜湊值不一樣，但它們之前在同一個桶上，那麼在調整以後，並不能保證它們依然在同一個桶上。

這幅圖片描述了調整前和調整後的內部陣列的情況。在調整陣列長度之前，為了得到Entry物件E，Map需要迭代遍歷一個包含5個元素的連結串列。在調整陣列長度之後，同樣的get()方法則只需要遍歷一個包含2個元素的連結串列，這樣get()方法在調整陣列長度後的執行速度提高了2倍。

執行緒安全

如果你已經非常熟悉HashMap，那麼你肯定知道它不是執行緒安全的，但是為什麼呢？例如假設你有一個Writer執行緒，它只會向Map中插入已經存在的資料，一個Reader執行緒，它會從Map中讀取資料，那麼它為什麼不工作呢？

因為在自動調整大小的機制下，如果執行緒試著去新增或者獲取一個物件，Map可能會使用舊的索引值，這樣就不會找到Entry物件所在的新桶。

在最糟糕的情況下，當2個執行緒同時插入資料，而2次put()呼叫會同時出發陣列自動調整大小。既然兩個執行緒在同時修改連結串列，那麼Map有可能在一個連結串列的內部迴圈中退出。如果你試著去獲取一個帶有內部迴圈的列表中的資料，那麼get()方法永遠不會結束。

HashTable提供了一個執行緒安全的實現，可以阻止上述情況發生。但是，既然所有的同步的CRUD操作都非常慢。例如，如果執行緒1呼叫get(key1)，然後執行緒2呼叫get(key2)，執行緒2呼叫get(key3)，那麼在指定時間，只能有1個執行緒可以得到它的值，但是3個執行緒都可以同時訪問這些資料。

從Java 5開始，我們就擁有一個更好的、保證執行緒安全的HashMap實現：ConcurrentHashMap。對於ConcurrentMap來說，只有桶是同步的，這樣如果多個執行緒不使用同一個桶或者調整內部陣列的大小，它們可以同時呼叫get()、remove()或者put()方法。在一個多執行緒應用程式中，這種方式是更好的選擇。

鍵的不變性

為什麼將字串和整數作為HashMap的鍵是一種很好的實現？主要是因為它們是不可變的！如果你選擇自己建立一個類作為鍵，但不能保證這個類是不可變的，那麼你可能會在HashMap內部丟失資料。

我們來看下面的用例：

你有一個鍵，它的內部值是“1”。
你向HashMap中插入一個物件，它的鍵就是“1”。
HashMap從鍵（即“1”）的雜湊碼中生成雜湊值。
Map在新建立的記錄中儲存這個雜湊值。
你改動鍵的內部值，將其變為“2”。
鍵的雜湊值發生了改變，但是HashMap並不知道這一點（因為儲存的是舊的雜湊值）。
你試著通過修改後的鍵獲取相應的物件。
Map會計算新的鍵（即“2”）的雜湊值，從而找到Entry物件所在的連結串列（桶）。
情況1：既然你已經修改了鍵，Map會試著在錯誤的桶中尋找Entry物件，沒有找到。
情況2：你很幸運，修改後的鍵生成的桶和舊鍵生成的桶是同一個。Map這時會在連結串列中進行遍歷，已找到具有相同鍵的Entry物件。但是為了尋找鍵，Map首先會通過呼叫equals()方法來比較鍵的雜湊值。因為修改後的鍵會生成不同的雜湊值（舊的雜湊值被儲存在記錄中），那麼Map沒有辦法在連結串列中找到對應的Entry物件。

下面是一個Java示例，我們向Map中插入兩個鍵值對，然後我修改第一個鍵，並試著去獲取這兩個物件。你會發現從Map中返回的只有第二個物件，第一個物件已經“丟失”在HashMap中：

public class MutableKeyTest {

	public static void main(String[] args) {

		class MyKey {
			Integer i;

			public void setI(Integer i) {
				this.i = i;
			}

			public MyKey(Integer i) {
				this.i = i;
			}

			@Override
			public int hashCode() {
				return i;
			}

			@Override
			public boolean equals(Object obj) {
				if (obj instanceof MyKey) {
					return i.equals(((MyKey) obj).i);
				} else
					return false;
			}

		}

		Map<MyKey, String> myMap = new HashMap<>();
		MyKey key1 = new MyKey(1);
		MyKey key2 = new MyKey(2);

		myMap.put(key1, "test " + 1);
		myMap.put(key2, "test " + 2);

		// modifying key1
		key1.setI(3);

		String test1 = myMap.get(key1);
		String test2 = myMap.get(key2);

		System.out.println("test1= " + test1 + " test2=" + test2);

	}

}

上述程式碼的輸出是“test1=null test2=test 2”。如我們期望的那樣，Map沒有能力獲取經過修改的鍵 1所對應的字串1。

Java 8 中的改進

在Java 8中，HashMap中的內部實現進行了很多修改。的確如此，Java 7使用了1000行程式碼來實現，而Java 8中使用了2000行程式碼。我在前面描述的大部分內容在Java 8中依然是對的，除了使用連結串列來儲存Entry物件。在Java 8中，我們仍然使用陣列，但它會被儲存在Node中，Node中包含了和之前Entry物件一樣的資訊，並且也會使用連結串列：

下面是在Java 8中Node實現的一部分程式碼：

   static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;

那麼和Java 7相比，到底有什麼大的區別呢？好吧，Node可以被擴充套件成TreeNode。TreeNode是一個紅黑樹的資料結構，它可以儲存更多的資訊，這樣我們可以在O(log(n))的複雜度下新增、刪除或者獲取一個元素。下面的示例描述了TreeNode儲存的所有資訊：

static final class TreeNode<K,V> extends LinkedHashMap.Entry<K,V> {
	final int hash; // inherited from Node<K,V>
	final K key; // inherited from Node<K,V>
	V value; // inherited from Node<K,V>
	Node<K,V> next; // inherited from Node<K,V>
	Entry<K,V> before, after;// inherited from LinkedHashMap.Entry<K,V>
	TreeNode<K,V> parent;
	TreeNode<K,V> left;
	TreeNode<K,V> right;
	TreeNode<K,V> prev;
	boolean red;

紅黑樹是自平衡的二叉搜尋樹。它的內部機制可以保證它的長度總是log(n)，不管我們是新增還是刪除節點。使用這種型別的樹，最主要的好處是針對內部表中許多資料都具有相同索引（桶）的情況，這時對樹進行搜尋的複雜度是O(log(n))，而對於連結串列來說，執行相同的操作，複雜度是O(n)。

如你所見，我們在樹中確實儲存了比連結串列更多的資料。根據繼承原則，內部表中可以包含Node（連結串列）或者TreeNode（紅黑樹）。Oracle決定根據下面的規則來使用這兩種資料結構：

- 對於內部表中的指定索引（桶），如果node的數目多於8個，那麼連結串列就會被轉換成紅黑樹。

- 對於內部表中的指定索引（桶），如果node的數目小於6個，那麼紅黑樹就會被轉換成連結串列。

這張圖片描述了在Java 8 HashMap中的內部陣列，它既包含樹（桶0），也包含連結串列（桶1，2和3）。桶0是一個樹結構是因為它包含的節點大於8個。

記憶體開銷

JAVA 7

使用HashMap會消耗一些記憶體。在Java 7中，HashMap將鍵值對封裝成Entry物件，一個Entry物件包含以下資訊：

指向下一個記錄的引用
一個預先計算的雜湊值（整數）
一個指向鍵的引用
一個指向值的引用

此外，Java 7中的HashMap使用了Entry物件的內部陣列。假設一個Java 7 HashMap包含N個元素，它的內部陣列的容量是CAPACITY，那麼額外的記憶體消耗大約是：

sizeOf(integer)* N + sizeOf(reference)* (3*N+C)

其中：

整數的大小是4個位元組
引用的大小依賴於JVM、作業系統以及處理器，但通常都是4個位元組。

這就意味著記憶體總開銷通常是16 * N + 4 * CAPACITY位元組。

注意：在Map自動調整大小後，CAPACITY的值是下一個大於N的最小的2的冪值。

注意：從Java 7開始，HashMap採用了延遲載入的機制。這意味著即使你為HashMap指定了大小，在我們第一次使用put()方法之前，記錄使用的內部陣列（耗費4*CAPACITY位元組）也不會在記憶體中分配空間。

JAVA 8

在Java 8實現中，計算記憶體使用情況變得複雜一些，因為Node可能會和Entry儲存相同的資料，或者在此基礎上再增加6個引用和一個Boolean屬性（指定是否是TreeNode）。

如果所有的節點都只是Node，那麼Java 8 HashMap消耗的記憶體和Java 7 HashMap消耗的記憶體是一樣的。

如果所有的節點都是TreeNode，那麼Java 8 HashMap消耗的記憶體就變成：

N * sizeOf(integer) + N * sizeOf(boolean) + sizeOf(reference)* (9*N+CAPACITY )

在大部分標準JVM中，上述公式的結果是44 * N + 4 * CAPACITY 位元組。

效能問題

非對稱HashMap vs 均衡HashMap

在最好的情況下，get()和put()方法都只有O(1)的複雜度。但是，如果你不去關心鍵的雜湊函式，那麼你的put()和get()方法可能會執行非常慢。put()和get()方法的高效執行，取決於資料被分配到內部陣列（桶）的不同的索引上。如果鍵的雜湊函式設計不合理，你會得到一個非對稱的分割槽（不管內部資料的是多大）。所有的put()和get()方法會使用最大的連結串列，這樣就會執行很慢，因為它需要迭代連結串列中的全部記錄。在最壞的情況下（如果大部分資料都在同一個桶上），那麼你的時間複雜度就會變為O(n)。

下面是一個視覺化的示例。第一張圖描述了一個非對稱HashMap，第二張圖描述了一個均衡HashMap。

在這個非對稱HashMap中，在桶0上執行get()和put()方法會很花費時間。獲取記錄K需要花費6次迭代。

在這個均衡HashMap中，獲取記錄K只需要花費3次迭代。這兩個HashMap儲存了相同數量的資料，並且內部陣列的大小一樣。唯一的區別是鍵的雜湊函式，這個函式用來將記錄分佈到不同的桶上。

下面是一個使用Java編寫的極端示例，在這個示例中，我使用雜湊函式將所有的資料放到相同的連結串列（桶），然後我新增了2,000,000條資料。

public class Test {

	public static void main(String[] args) {

		class MyKey {
			Integer i;
			public MyKey(Integer i){
				this.i =i;
			}

			@Override
			public int hashCode() {
				return 1;
			}

			@Override
			public boolean equals(Object obj) {
			…
			}

		}
		Date begin = new Date();
		Map <MyKey,String> myMap= new HashMap<>(2_500_000,1);
		for (int i=0;i<2_000_000;i++){
			myMap.put( new MyKey(i), "test "+i);
		}

		Date end = new Date();
		System.out.println("Duration (ms) "+ (end.getTime()-begin.getTime()));
	}
}

我的機器配置是core i5-2500k @ 3.6G，在java 8u40下需要花費超過45分鐘的時間來執行（我在45分鐘後停止了程式）。如果我執行同樣的程式碼，但是我使用如下的hash函式：

	@Override
	public int hashCode() {
		int key = 2097152-1;
		return key+2097152*i;
}

執行它需要花費46秒，和之前比，這種方式好很多了！新的hash函式比舊的hash函式在處理雜湊分割槽時更合理，因此呼叫put()方法會更快一些。如果你現在執行相同的程式碼，但是使用下面的hash函式，它提供了更好的雜湊分割槽：

 @Override
 public int hashCode() {
 return i;
 }

現在只需要花費2秒！

我希望你能夠意識到雜湊函式有多重要。如果在Java 7上面執行同樣的測試，第一個和第二個的情況會更糟（因為Java 7中的put()方法複雜度是O(n)，而Java 8中的複雜度是O(log(n))。

在使用HashMap時，你需要針對鍵找到一種雜湊函式，可以將鍵擴散到最可能的桶上。為此，你需要避免雜湊衝突。String物件是一個非常好的鍵，因為它有很好的雜湊函式。Integer也很好，因為它的雜湊值就是它自身的值。

調整大小的開銷

如果你需要儲存大量資料，你應該在建立HashMap時指定一個初始的容量，這個容量應該接近你期望的大小。

如果你不這樣做，Map會使用預設的大小，即16，factorLoad的值是0.75。前11次呼叫put()方法會非常快，但是第12次（16*0.75）呼叫時會建立一個新的長度為32的內部陣列（以及對應的連結串列/樹），第13次到第22次呼叫put()方法會很快，但是第23次（32*0.75）呼叫時會重新建立（再一次）一個新的內部陣列，陣列的長度翻倍。然後內部調整大小的操作會在第48次、96次、192次…..呼叫put()方法時觸發。如果資料量不大，重建內部陣列的操作會很快，但是資料量很大時，花費的時間可能會從秒級到分鐘級。通過初始化時指定Map期望的大小，你可以避免調整大小操作帶來的消耗。

但這裡也有一個缺點：如果你將陣列設定的非常大，例如2^28，但你只是用了陣列中的2^26個桶，那麼你將會浪費大量的記憶體（在這個示例中大約是2^30位元組）。

結論

對於簡單的用例，你沒有必要知道HashMap是如何工作的，因為你不會看到O(1)、O(n)以及O(log(n))之間的區別。但是如果能夠理解這一經常使用的資料結構背後的機制，總是有好處的。另外，對於Java開發者職位來說，這是一道典型的面試問題。

對於大資料量的情況，瞭解HashMap如何工作以及理解鍵的雜湊函式的重要性就變得非常重要。

我希望這篇文章可以幫助你對HashMap的實現有一個深入的理解。

深入探討Function Calling：實現外部函式呼叫的工作原理
2024-05-28
Function函式
深入探討 Undefined
2018-10-23
Undefined
深入探討HBASE
2020-11-16
java面試題-HashMap的工作原理
2019-02-18
Java面試題HashMap
深入探討 Java Spring 框架事務註釋
2024-02-16
JavaSpring框架
深入探討單例模式
2020-04-17
單例模式
深入探討ROP 載荷分析
2020-08-19
[java]HashMap原理剖析
2019-03-20
JavaHashMap
深入探討 Room 2.4.0 的最新進展
2022-01-25
OOM
Sql Server深入的探討鎖機制
2021-09-09
SQLServer
Java集合——深入理解HashMap
2019-03-07
JavaHashMap
深入探討下SSR與CSR有啥不同
2024-04-15
深入探討：Maven中的物料清單BOM
2021-09-30
Maven
乾貨：HashMap的工作原理解析
2019-03-04
HashMap
原始碼的魅力 – HashMap 的工作原理
2019-03-04
原始碼HashMap
深入淺出學Java-HashMap
2020-10-10
JavaHashMap
深入探討Spring Boot中的引數傳遞
2024-07-25
Spring Boot
深入探討！Batch 大小對訓練的影響
2021-08-12
BAT
深入探討控制反轉（IOC）與依賴注入（DI）模式原理與應用實踐
2024-08-06
依賴注入模式
HashMap中面試常問的工作原理
2021-09-09
HashMap面試
Java中HashMap的實現原理
2018-08-11
JavaHashMap
深入探討《癌症似龍》中情感的敘事方式
2020-04-24
專訪：深入探討SQL Server主資料服務AT
2022-03-21
SQLServer
opencv實戰——影像矯正演算法深入探討
2021-05-20
OpenCV演算法
深入淺出HTTPS工作原理
2019-03-04
HTTP
深入理解HTTPS工作原理
2019-04-26
HTTP
用程式碼探討KVC/KVO的實現原理
2019-02-27
Tornado原理淺析及應用場景探討
2019-04-10
用程式碼探討 KVC/KVO 的實現原理
2018-04-05
Promise探討
2019-01-02
Promise
深入淺出一下Java的HashMap
2019-02-16
JavaHashMap
Java:HashMap原理與設計緣由
2019-07-04
JavaHashMap
Java類、物件以及(靜態)方法的探討
2023-01-12
Java物件
深入理解：Spring MVC工作原理
2018-07-30
SpringMVC
深入理解Argo CD工作原理
2024-09-09
Go
HashMap原理
2022-01-14
HashMap
OPCUA 探討（一）
2024-12-05
深入探討微服務架構中的同步通訊機制
2024-08-09
微服務架構
深入探討Function Calling：在Semantic Kernel中的應用實踐
2024-05-30
Function