JDK1.7 HashMap
如何在原始碼上新增自己的註釋
開啟jdk下載位置
解壓src資料夾,開啟idea,ctrl+shift+alt+s
開啟專案配置
選擇jdk版本1.7,然後點選Sourcepath
選擇剛剛解壓的src檔案目錄,然後選擇src.zip的檔案點選-
號,專案中只留下剛才解壓的src檔案即可
開啟原始碼,輸入時會出一個提示框,直接點選ok即可,然後就可以輸入自己的註釋了
在開始前先了解一下JDK1.7的HashMap的資料結構,就算沒有研究過原始碼也聽過JDK1.7中HashMap是陣列加連結串列,1.8中是陣列加連結串列加紅黑樹,今天我們主要研究1.7,首先陣列肯定都知道,連結串列這個一聽以為是很難的東西,其實一點也不難
什麼叫連結串列呢,以java程式碼形式
假設現在有一個節點,裡有具體的值和下一個節點的引用
public class Node{
private int number;
private Node next;
}
當節點的next引用指向下一個Node節點,許多的節點連線起來就叫做連結串列
JDK1.7的資料結構就是如下圖所示
在開始前建議自己跟著開啟對應的類,方法來自己看一看原始碼,不然很容易就不知道在哪裡了
HashMap中的全域性變數
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;
static final int MAXIMUM_CAPACITY = 1 << 30;
static final float DEFAULT_LOAD_FACTOR = 0.75f;
static final Entry<?, ?>[] EMPTY_TABLE = {};
transient Entry<K, V>[] table = (Entry<K, V>[]) EMPTY_TABLE;
transient int size;
int threshold;
final float loadFactor;
transient int modCount;
我們來看一下全域性變數,簡單描述一下它們的作用
DEFAULT_INITIAL_CAPACITY
預設的初始容量,而大小使用了一個左移運算子,怎麼來看它的值呢?java中所有的位運算都是在二進位制的情況下進行的
首先1的二進位制是 0000 0001 而<< 4 符號的意思是將所有的數字往左邊移動4位,移出來的位置用0替換
也就是 0001 0000 轉換為10進位制就是16,也就是HashMap的預設容量
MAXIMUM_CAPACITY
最大容量,也是使用位運算子,1<<30 轉換為10進位制就是1073741824
DEFAULT_LOAD_FACTOR
預設的負載因子,預設為0.75f,現在可能不太理解,先有個印象即可
Entry[] EMPTY_TABLE
初始化的一個空陣列
Entry<K, V>[] table = (Entry<K, V>[]) EMPTY_TABLE
真正儲存資料的陣列
size
儲存元素的個數,map.size()方法就是直接返回這個變數
public int size() {
return size;
}
threshold
臨界值,當容量到達這個容量是進行判斷是否擴容,而這個臨界值計算公式就是,容量大小乘以負載因子,如果初始化沒有設定map的大小和負載因子的話,預設就是16*0.75=12
loadFactor
如果建立HashMap時設定了負載因子,那麼會賦值給這個變數,沒有特殊需求的話一般不需要設定這個值,太大導致連結串列過長,影響get方法效率,太小會導致經常進行擴容浪費效能
modCount
HashMap的結構被修改的次數,用於迭代器
構造方法
首先來看無參構造
public HashMap() {
this(DEFAULT_INITIAL_CAPACITY, DEFAULT_LOAD_FACTOR);
}
呼叫了過載的構造,傳入的就是預設大小(16)和預設的負載因子大小(0.75f)
那麼我們來看有參構造
public HashMap(int initialCapacity, float loadFactor) {
//初始容量不能小於0
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity: " +
initialCapacity);
//初始容量是否大於最大容量
if (initialCapacity > MAXIMUM_CAPACITY)
//如果大於最大容量,則將容量設定為最大容量
initialCapacity = MAXIMUM_CAPACITY;
//如果負載係數小於0或者不是一個數字丟擲異常
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor: " +
loadFactor);
// 設定負載因子,臨界值此時為容量大小,後面第一次put時由inflateTable(int toSize)方法計算設定
this.loadFactor = loadFactor;
threshold = initialCapacity;
//空方法,由其他實現類實現
init();
}
put方法
擴容就是在put方法中實現的,來看程式碼
public V put(K key, V value) {
// 如果table引用指向成員變數EMPTY_TABLE,那麼初始化HashMap(設定容量、臨界值,新的Entry陣列引用)
if (table == EMPTY_TABLE) {
inflateTable(threshold);
}
// HashMap 支援key為null
if (key == null)
//key為null單獨呼叫儲存空key的方法
return putForNullKey(value);
//計算key的hash值
int hash = hash(key);
// 根據hash值和表當前的長度,得到一個在陣列中的下標,重點關注一下indexFor方法的實現。
// 該演算法主要返回一個索引,0 到 table.length-1的陣列下標。
int i = indexFor(hash, table.length);
//接下來,找到 table[i]處,以及該處的資料連結串列,看是否存在相同的key;判斷key相同,
// 首先判斷hash值是否相等,然後再 判斷key的equals方法是否相等
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
//首先判斷hash,如果物件的hashCode方法沒有被重寫,那麼hash值相等兩個物件一定相等
//並且判斷如果key相等或者key的值相等那麼覆蓋並返回舊的value
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
//進行新增操作
addEntry(hash, key, value, i);
return null;
}
我們來一步一步看,首先來看第一個判斷
// 如果table引用指向成員變數EMPTY_TABLE,那麼初始化HashMap(設定容量、臨界值,新的Entry陣列引用)
if (table == EMPTY_TABLE) {
inflateTable(threshold);
}
如果這個判斷成立,也就是說這個陣列還沒有進行過初始化,則呼叫inflateTable(threshold);
方法來進行初始化,傳入的引數為臨界值,我們來看inflateTable方法
private void inflateTable(int toSize) {
// Find a power of 2 >= toSize
// 首先計算容量, toSize 容量為 threshold,在構造方法中,threshold預設等於初始容量,也就是16
int capacity = roundUpToPowerOf2(toSize);
// 然後重新計算 threshold的值,預設為 capacity * loadFactor
//Math.min 方法用於返回兩個引數中的最小值
threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
//初始化陣列 容量為 capacity
table = new Entry[capacity];
initHashSeedAsNeeded(capacity);
}
roundUpToPowerOf2方法,簡單來看一下這個方法的作用
private static int roundUpToPowerOf2(int number) {
// assert number >= 0 : "number must be non-negative";
//判斷引數的值是否大於最大容量
return number >= MAXIMUM_CAPACITY
//如果大於將返回最大容量
? MAXIMUM_CAPACITY
/**
* 如果小於1返回1
* highestOneBit方法可以簡單理解為返回小於等於輸入的數字最近的2的次方數
* 例如
* 2的1次方 2
* 2的2次方 4
* 2的3次方 8
* 2的4次方 16
* 2的5次方 32
* 小於15,並且距離15最近的2的次方數 : 8
* 小於16,並且距離15最近的2的次方數 : 16
* 小於17,並且距離15最近的2的次方數 : 16
*/
: (number > 1) ? Integer.highestOneBit((number - 1) << 1) : 1;
}
具體方法實現就不繼續研究了,不是這篇的主題,繼續來看inflateTable
方法中內容
threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);
這一步操作是重新計算threshold的值,也就是臨界值,通過計算出的容量大小乘以負載因子大小來算出臨界值的大小
Math.min方法是判斷兩個值大小,返回小的那個,如果引數具有相同的值,則結果為相同的值。如果任一值為NaN,則結果為NaN
之後將初始化一個Entry型別的陣列賦值給table
//初始化陣列 容量為 capacity
table = new Entry[capacity];
那麼我們現在來看一下這個Entry類
static class Entry<K, V> implements Map.Entry<K, V> {
final K key;
V value;
Entry<K, V> next;
int hash;
}
那麼和開頭舉的例子Node基本一樣的思路,在類中單獨定義一個用來儲存下一個節點的變數next
回到put方法,來看下一個判斷
// HashMap 支援key為null
if (key == null)
//key為null單獨呼叫儲存空key的方法
return putForNullKey(value);
我們來看一下這個putForNullKey方法
private V putForNullKey(V value) {
//獲取下標為0的Entry節點
for (Entry<K, V> e = table[0]; e != null; e = e.next) {
if (e.key == null) {
V oldValue = e.value;
e.value = value;
//空方法
e.recordAccess(this);
return oldValue;
}
}
modCount++;
addEntry(0, null, value, 0);
return null;
}
在HashMap中,key為null的entry會儲存在下標0的位置,上面進行覆蓋操作,來看addEntry方法
void addEntry(int hash, K key, V value, int bucketIndex) {
/* JDK1.7以後的擴容條件;size大於等於threshold,並且新新增元素所在的索引值不等為空
也就是即使當size達到或超過threshold,新增加元素,只要不會引起hash衝突則不擴容;
JDK1.8去掉了為null的判斷
*/
if ((size >= threshold) && (null != table[bucketIndex])) {
//將大小擴容到原來的兩倍
resize(2 * table.length);
//如果key為null,將放到index為0的位置,否則進行取hash的操作
hash = (null != key) ? hash(key) : 0;
//根據獲取的hash值進行獲取下標
bucketIndex = indexFor(hash, table.length);
}
//建立entry
createEntry(hash, key, value, bucketIndex);
}
來看擴容resize()方法,傳入的是2倍的舊陣列的長度
void resize(int newCapacity) {
//將舊table賦值給oldTable
Entry[] oldTable = table;
//獲取舊table長度
int oldCapacity = oldTable.length;
//如果長度已經等於最大限制設定為Integer的最大值
if (oldCapacity == MAXIMUM_CAPACITY) {
threshold = Integer.MAX_VALUE;
return;
}
//建立新table,長度為引數為傳入的引數newCapacity
Entry[] newTable = new Entry[newCapacity];
//該方法將oldTable的資料複製到了newTable
transfer(newTable, initHashSeedAsNeeded(newCapacity));
//將新擴容的table改為當前hashmap的儲存table
table = newTable;
//重新計算閾值
threshold = (int) Math.min(newCapacity * loadFactor, MAXIMUM_CAPACITY + 1);
}
在擴容方法中主要關注將資料轉移的transfer方法
void transfer(Entry[] newTable, boolean rehash) {
//獲取新建立的table長度
int newCapacity = newTable.length;
//遍歷舊table
for (Entry<K, V> e : table) {
/*程式碼第一次判斷如果當前下標entry是否為空,
如果為空則切換到下一個Entry節點
如果不為空,第二次就是判斷當前下標的entry是否形成連結串列
如果形成連結串列將一直判斷是否有下一個節點,當把該下標連結串列遍歷完畢後,
然後切換到下一個entry節點進行相同的操作
* */
while (null != e) {
//獲取下一個entry
Entry<K, V> next = e.next;
if (rehash) {
/**
* 判斷e.key是否為null,如果為null將e.hash賦值為0
* 否則呼叫hash()方法進行計算hash
*/
e.hash = null == e.key ? 0 : hash(e.key);
}
//通過當前遍歷舊錶的entry的hash值和新table的長度來獲取在新表的下標位置
int i = indexFor(e.hash, newCapacity);
/*
* jdk1.7是進行頭插法,也就是不需要知道當前下標位置是否存在Entry
* 只需要將舊錶中Entry節點,通過計算出下標位置
* 在新新增的Entry中直接將當前下標元素賦值給next屬性,然後新新增的節點賦值給當前下標
*/
e.next = newTable[i];
newTable[i] = e;
e = next;
}
}
}
其中有幾個需要關注的方法
//hash()======這個方法簡單理解為來通過key來計算hash,在get時通過hash可以確保是同一個entry物件
final int hash(Object k) {
int h = hashSeed;
if (0 != h && k instanceof String) {
return sun.misc.Hashing.stringHash32((String) k);
}
h ^= k.hashCode();
// This function ensures that hashCodes that differ only by
// constant multiples at each bit position have a bounded & ~
// number of collisions (approximately 8 at default load factor).
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
//indexFor()===========
/**
這裡使用&於運算子,兩個相同為1返回1,否則返回0,例如
0010 1101
1010 1011
結果 0010 1001
*/
static int indexFor(int h, int length) {
return h & (length - 1);
}
我們現在回到resize擴容方法,這個方法中最主要的就是這個將舊陣列中資料複製到新陣列中這個transfer()方法了,其他的操作上面都有註釋,對應著看應該可以看懂
這裡再主要說一下indexFor方法,在初始化HashMap時為什麼在設定初始大小的時候必須為2的倍數
下面以HashMap初始化大小為16為例
首先&運算子兩都為1才為1,否則為0
假設hash值為....1010 1010 而現在hashmap的長度為16,即(16-1)=15
hash:1010 1010
15: 0000 1111
因為15的低四位為1,也就是說通過&位運算子能對結果造成影響的只有低四位的四個1,其他高為都為0
這也是hash()方法的用處儘量讓其他位參與hash運算,達到更加分散的hash值
假設初始大小為單數,例如15,那麼通過(length - 1);
,結果為14,14的二進位制為
0000 1110
那麼和計算出的hash進行&運算能對結果進行影響的位數會減少1位,這還是好的情況,如果傳入的初始大小為17那麼會怎樣?
17通過length-1的操作為16,16的二進位制為0001 0000,那麼再和hash值進行&的操作
hash: 1010 1010
16: 0001 0000
只有兩種情況,0000 0000 和0001 0000 ,那麼設定的hashmap的大小將毫無作用,
只會在0000 0000 和0001 0000 的位置進行put操作,也就是說所有元素都只會新增在陣列中兩個位置
那我們回到addEntry()方法中
void addEntry(int hash, K key, V value, int bucketIndex) {
/* JDK1.7以後的擴容條件;size大於等於threshold,並且新新增元素所在的索引值不等為空
也就是當size達到或超過threshold,新增加元素,只要不會引起hash衝突則不擴容;
JDK1.8去掉了為null的判斷
*/
if ((size >= threshold) && (null != table[bucketIndex])) {
//將大小擴容到原來的兩倍
resize(2 * table.length);
//如果key為null,將放到index為0的位置,否則進行取hash的操作
hash = (null != key) ? hash(key) : 0;
//根據獲取的hash值進行獲取下標
bucketIndex = indexFor(hash, table.length);
}
//建立entry
createEntry(hash, key, value, bucketIndex);
}
resize()方法下面取hash操作的hash()方法和獲取下標的indexFor方法都已經在上面寫過,這裡就不再贅述
接下來主要來看createEntry方法
void createEntry(int hash, K key, V value, int bucketIndex) {
//先獲取當前下標entry節點,也可能為null
Entry<K, V> e = table[bucketIndex];
//如果有entry節點,那麼在新增新的entry時將會形成連結串列
table[bucketIndex] = new Entry<>(hash, key, value, e);
//將hashmap的大小加1
size++;
}
因為hash值,所在下標位置都已經獲取過了,所以方法傳入引數直接使用
到這裡put方法中putForNullKey()新增null key的方法就完成了,我們返回put方法繼續
//put方法,省略一些剛剛寫過的方法
int hash = hash(key);
int i = indexFor(hash, table.length);
//接下來,找到 table[i]處,以及該處的資料連結串列,看是否存在相同的key;判斷key相同,
// 首先判斷hash值是否相等,然後再 判斷key的equals方法是否相等
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
//首先判斷hash,如果物件的hashCode方法沒有被重寫,那麼hash值相等兩個物件一定相等
//並且判斷如果key相等或者key的值相等那麼覆蓋並返回舊的value
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value;
e.value = value;
e.recordAccess(this);
return oldValue;
}
}
modCount++;
//進行新增操作
addEntry(hash, key, value, i);
return null;
最上面hash()和indexFor()方法上面寫過,不再贅述,中間的判斷覆蓋參考註釋應該可以理解,而下面的addEntry方法上面也寫過
get方法
如果理解了put方法後,get方法會相對簡單很多
public V get(Object key) {
//判斷如果key等於null的話,直接呼叫得到nullkey的方法
if (key == null)
return getForNullKey();
//通過getEntry方法的到entry節點
Entry<K, V> entry = getEntry(key);
//判斷如果為null返回null,否則返回entry的value
return null == entry ? null : entry.getValue();
}
首先來看key為null的情況
private V getForNullKey() {
//如果hashmap的大小為0返回null
if (size == 0) {
return null;
}
/**
開始研究時有個問題困擾著我,寫部落格時突然明白了,
問題就是既然已知key為null的entry都會被放入下標0的位置,為什麼還要迴圈,直接獲取0下標的entry覆蓋不行嗎
然後我在寫indexFor方法時想到,不僅僅null的key下標為0,如果一個hash演算法算完後通過indexFor方法
算出的下標正好是0呢,它就必須通過迴圈來找到那個key為null的entry
*/
for (Entry<K, V> e = table[0]; e != null; e = e.next) {
if (e.key == null)
return e.value;
}
return null;
}
邏輯比較簡單,就不解釋了,我們回到get看下一個getEntry方法
final Entry<K, V> getEntry(Object key) {
//如果hashmap的大小為0返回null
if (size == 0) {
return null;
}
//判斷key如果為null則返回0,否則將key進行hash
int hash = (key == null) ? 0 : hash(key);
//indexFor方法通過hash值和table的長度獲取對應的下標
//遍歷該下標下的(如果有)連結串列
for (Entry<K, V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
//判斷當前entry的key的hash如果和和參入的key相同返回當前entry節點
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
到此JDK1.7中HashMap的基本get,put方法就完成了
本文僅個人理解,如果有不對的地方歡迎評論指出或私信,謝謝٩(๑>◡<๑)۶