《java集合框架分析-HashMap》 一文對 Java 的 HashMap 進行了簡單分析,本篇繼續深入瞭解其中涉及到的一些重要內容。
原始碼環境
JDK1.6
載入因子 loadfactor
/**
* 預設的初始化的容量,必須是2的冪次數<br>
* The default initial capacity - MUST be a power of two.
*/
static final int DEFAULT_INITIAL_CAPACITY = 16;
/**
* 預設的載入因子
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/**
* 閾值。等於容量乘以載入因子。<br>
* 也就是說,一旦容量到了這個數值,HashMap將會擴容。
* The next size value at which to resize (capacity * load factor).
* @serial
*/
int threshold;
複製程式碼
預設的容量是 16,而 threshold 是 16*0.75 = 12;
載入因子 loadfactor 是表示 Hsah 表中元素的填滿的程度.若:載入因子越大,填滿的元素越多,好處是,空間利用率高了,但:衝突的機會加大了.反之,載入因子越小,填滿的元素越少,好處是:衝突的機會減小了,但:空間浪費多了.
衝突的機會越大,則查詢的成本越高.反之,查詢的成本越小.因而,查詢時間就越小.
因此,必須在 "衝突的機會"與"空間利用率"之間尋找一種平衡與折衷. 這種平衡與折衷本質上是資料結構中有名的"時-空"矛盾的平衡與折衷.
put 方法
public V put(K key, V value) {
// 省略部分程式碼...
// 這裡增加了一個Entry
addEntry(hash, key, value, i);
return null;
}
//插入一條資料
void addEntry(int hash, K key, V value, int bucketIndex) {
Entry<K,V> e = table[bucketIndex];
table[bucketIndex] = new Entry<K,V>(hash, key, value, e);
// 這裡是關鍵,一旦大於等於threshold的數值
if (size++ >= threshold) {
// 將會引起容量2倍的擴大
resize(2 * table.length);
}
}
//擴容
void resize(int newCapacity) {
Entry[] oldTable = table;
int oldCapacity = oldTable.length;
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
Entry[] newTable = new Entry[newCapacity];
transfer(newTable);
table = newTable;
// 重新計算threshold的值
threshold = (int)(newCapacity * loadFactor);
}
複製程式碼
在 put 方法中,首先會判斷容量是否夠,如果一旦超過閾值的話,則就進行2倍擴容。
初始容量
初始容量 DEFAULT_INITIAL_CAPACITY 必須是2的冪次數,也就是說必須是正整數,為何要如此設計呢?
public HashMap(int initialCapacity, float loadFactor) {
// Find a power of 2 >= initialCapacity
// 重新查詢不比指定數值大的最小的2的冪次數
int capacity = 1;
while (capacity < initialCapacity)
//左移一位,擴大兩倍,獲取最合適的初始容量值
capacity <<= 1;
// 其它的初始化程式碼 ...
}
複製程式碼
上面是 HashMap 進行初始化時的構造方法裡面關於初始容量的內容,主要就是找到合適的初始容量。
為何是2的冪次數?這就涉及到雜湊表中元素的均勻雜湊了。
//indexFor返回hash值和table陣列長度減1的與運算結果。
public static int indexFor(int h, int length) {
return h & (length-1);
}
複製程式碼
對於查詢 hash 表中的資料時需要用到以上的方法,我們一般對雜湊表的雜湊很自然地會想到用hash值對length取模(即除法雜湊法),Hashtable 中也是這樣實現的,這種方法基本能保證元素在雜湊表中雜湊的比較均勻,但取模會用到除法運算,效率很低,HashMap 中則通過 h&(length-1) 的方法來代替取模,同樣實現了均勻的雜湊,但效率要高很多,這也是 HashMap 對 Hashtable 的一個改進。
接下來,我們分析下為什麼雜湊表的容量一定要是2的整數次冪。首先,length 為2的整數次冪的話,h&(length-1) 就相當於對 length 取模,這樣便保證了雜湊的均勻,同時也提升了效率;其次,length 為2的整數次冪的話,為偶數,這樣 length-1 為奇數,奇數的最後一位是1,這樣便保證了 h&(length-1) 的最後一位可能為0,也可能為1(這取決於h的值),即與後的結果可能為偶數,也可能為奇數,這樣便可以保證雜湊的均勻性,而如果 length 為奇數的話,很明顯 length-1 為偶數,它的最後一位是0,這樣 h&(length-1) 的最後一位肯定為0,即只能為偶數,這樣任何hash值都只會被雜湊到陣列的偶數下標位置上,這便浪費了近一半的空間,因此,length 取2的整數次冪,是為了使不同 hash 值發生碰撞的概率較小,這樣就能使元素在雜湊表中均勻地雜湊。