來來來,今天就跟hashmap槓到底。。。
不要叫我槓精了,主要是還是被問到hashmap的時候,我並不能很清晰明瞭得告知這種資料結構到底是一個什麼構造,裡面細節並不瞭解
既然這樣,我們就把他解析一波,今天這篇也算是hashmap的收官之作了,主要用來紅黑樹部分我之前有博文寫過,但是不用深究
自己實現一個hashmap
話不多說,直接上程式碼,我先把這幾天的成就放上來,也就是自己實現的hashmap,還原到以前的版本,我把紅黑樹的部分程式碼給刪除了
package y2019.collection; import java.util.Map; import java.util.Objects; /** * @ProjectName: cutter-point * @Package: y2019.collection * @ClassName: MyMyHashMap * @Author: xiaof * @Description: 在JDK8中,當連結串列長度達到8,會轉化成紅黑樹,以提升它的查詢、插入效率 * 底層雜湊桶的資料結構是陣列,所以也會涉及到擴容的問題。 * 當MyHashMap的容量達到threshold域值時,就會觸發擴容。擴容前後,雜湊桶的長度一定會是2的次方。 * 這個類的目標是為了實現MyHashMap中的陣列,hash擾動之後轉連結串列的操作(後續可以考慮完善紅黑樹結構) * @Date: 2019/6/25 9:08 * @Version: 1.0 */ public class MyHashMap<K,V> { //容器最大容量 static final int MAXIMUM_CAPACITY = 1 << 30; //用來存放NODE資料的陣列 transient Node<K,V>[] table; /** * hash桶預設長度 */ static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16 //預設載入因子,載入因子是一個比例,當HashMap的資料大小>=容量*載入因子時,HashMap會將容量擴容 static final float DEFAULT_LOAD_FACTOR = 0.75f; //hash桶的閾值 int threshold; //裝載因子用來衡量HashMap滿的程度 float loadFactor; transient int modCount; transient int size; static class Node<K,V> implements Map.Entry<K,V> { final int hash; final K key; V value; Node<K,V> next; Node(int hash, K key, V value, Node<K,V> next) { this.hash = hash; this.key = key; this.value = value; this.next = next; } public final K getKey() { return key; } public final V getValue() { return value; } public final String toString() { return key + "=" + value; } public final int hashCode() { return Objects.hashCode(key) ^ Objects.hashCode(value); } public final V setValue(V newValue) { V oldValue = value; value = newValue; return oldValue; } public final boolean equals(Object o) { if (o == this) return true; if (o instanceof Map.Entry) { Map.Entry<?,?> e = (Map.Entry<?,?>)o; if (Objects.equals(key, e.getKey()) && Objects.equals(value, e.getValue())) return true; } return false; } } public static int hash(Object key) { int h; //也就將key的hashCode無符號右移16位然後與hashCode異或從而得到hash值在putVal方法中(n - 1)& hash計算得到桶的索引位置 //注意,這裡h是int值,也就是32位,然後無符號又移16位,那麼就是折半,折半之後和原來的資料做異或操作,正好整合了高位和低位的資料 //混合原始雜湊碼的高位和低位,以此來加大低位的隨機性,而且混合後的低位摻雜了高位的部分特徵,這樣高位的資訊也被變相保留下來。 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } //測試,如果我們不做高位低位的操作看看hash衝突是大還是小 public static int hash2(Object key) { return (int) key; } public static int hash3(Object key) { int h = key.hashCode(); //我們不做右移試試,那就自己跟自己異或。。。沒意義,只能是0了 return (key == null) ? 0 : h ^ h; } public static int hash4(Object key) { int h; //我們不做右移試試,或者右移8位試試 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 8); } public static int hash5(Object key) { int h; //我們不做右移試試,或者右移8位試試 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 4); } public static int hash6(Object key) { int h; //我們不做右移試試,或者右移8位試試 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 2); } public int quyu1(int num, int n) { //對num進行n取餘 return num % n; } public int quyu2(int num, int n) { //對num進行n取餘 return num & (n - 1); } final Node<K,V> getNode(int hash, Object key) { Node<K,V>[] tab; Node<K,V> first, e; int n; K k; //注意這一步中(n - 1) & hash 的值 等同於 hash(k)%table.length if ((tab = table) != null && (n = tab.length) > 0 && //這裡是計算相當於是取餘的索引位置(n - 1) & hash 等價於hash % n //而且由於hashmap中的length再tableSizeFor的時候,就把長度設定為2的n次冪了,那麼n-1之後的值,就是最高位全都是0,下面位數全是1 //這個也就是取hash的低位的值 (first = tab[(n - 1) & hash]) != null) { if (first.hash == hash && // always check first node ((k = first.key) == key || (key != null && key.equals(k)))) return first; if ((e = first.next) != null) { //暫時不考慮紅黑樹 // if (first instanceof TreeNode) // return ((TreeNode<K,V>)first).getTreeNode(hash, key); do { if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) return e; } while ((e = e.next) != null); } } return null; } public V get(Object key) { MyHashMap.Node<K,V> e; return (e = getNode(hash(key), key)) == null ? null : e.value; } /** * * @program: y2019.collection.MyHashMap * @description: 這個方法用於找到大於等於initialCapacity的最小的2的冪(initialCapacity如果就是2的冪,則返回的還是這個數)。 * @auther: xiaof * 總結: * 1.說白了就是為了保證所有的位數(二進位制)都是1,那麼就可以保證這個數就是2的冪 * 2.不斷做無符號右移,是為了吧高位的資料拉下來做或操作,來保證對應的底位都是1 * @date: 2019/6/25 10:25 */ public static final int tableSizeFor(int cap) { //這是為了防止,cap已經是2的冪。如果cap已經是2的冪 int n = cap - 1; //第一次右移,由於n不等於0(如果為0,不管幾次右移都是0,那麼最後有個n+1的操作),則n的二進位制表示中總會有一bit為1 //這裡無符號右移一位之後做或操作,那麼會導致原來有1的地方緊接著也是1 //比如00000011xxxxxxxx //還有一點無符號右移是為了避免前位補1,導致資料溢位,因為負數是以補碼的形式存在的,那麼就會再高位補1 n |= n >>> 1; //第二次無符號右移,並做或操作 //00000011xxxxxxxx=>0000001111xxxxxx 這個時候就是4個1 n |= n >>> 2; n |= n >>> 4; n |= n >>> 8; //由於int最大也就是2的16次冪,所以到16停止 n |= n >>> 16; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; } public static final int tableSizeFor2(int cap) { //這是為了防止,cap已經是2的冪。如果cap已經是2的冪 int n = cap - 1; n |= n & 0xffff; return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1; } public static final int tableSizeFor3(int cap) { //這是為了防止,cap已經是2的冪。如果cap已經是2的冪 int n = (cap - 1) & 0xffff; String hex = Integer.toBinaryString(n); return (cap <= 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : (int) Math.pow(2, hex.length()); } Node<K,V> newNode(int hash, K key, V value, Node<K,V> next) { return new Node<>(hash, key, value, next); } public V put(K key, V value) { return putVal(hash(key), key, value, false, true); } public V put2(K key, V value) { return putVal2(hash(key), key, value, false, true); } final V putVal(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; //當table為空時,這裡初始化table,不是通過建構函式初始化,而是在插入時通過擴容初始化,有效防止了初始化HashMap沒有資料插入造成空間浪費可能造成記憶體洩露的情況 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize()).length; //存放新鍵值對 if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); else { Node<K,V> e; K k; //舊鍵值對的覆蓋 if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; // else if (p instanceof TreeNode) // e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); else { //連結串列存放 for (int binCount = 0; ; ++binCount) { if ((e = p.next) == null) { //連結串列尾部插入 p.next = newNode(hash, key, value, null); //當連結串列的長度大於等於樹化閥值,並且hash桶的長度大於等於MIN_TREEIFY_CAPACITY,連結串列轉化為紅黑樹 // if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st // treeifyBin(tab, hash); break; } //連結串列中包含鍵值對 if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } //map中含有舊key,返回舊值 if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; // afterNodeAccess(e); return oldValue; } } //map調整次數加1 ++modCount; //鍵值對的數量達到閾值需要擴容 if (++size > threshold) resize(); // afterNodeInsertion(evict); return null; } final V putVal2(int hash, K key, V value, boolean onlyIfAbsent, boolean evict) { Node<K,V>[] tab; Node<K,V> p; int n, i; //當table為空時,這裡初始化table,不是通過建構函式初始化,而是在插入時通過擴容初始化,有效防止了初始化HashMap沒有資料插入造成空間浪費可能造成記憶體洩露的情況 if ((tab = table) == null || (n = tab.length) == 0) n = (tab = resize2()).length; //存放新鍵值對 if ((p = tab[i = (n - 1) & hash]) == null) tab[i] = newNode(hash, key, value, null); else { Node<K,V> e; K k; //舊鍵值對的覆蓋 if (p.hash == hash && ((k = p.key) == key || (key != null && key.equals(k)))) e = p; // else if (p instanceof TreeNode) // e = ((TreeNode<K,V>)p).putTreeVal(this, tab, hash, key, value); else { //連結串列存放 for (int binCount = 0; ; ++binCount) { if ((e = p.next) == null) { //連結串列尾部插入 p.next = newNode(hash, key, value, null); //當連結串列的長度大於等於樹化閥值,並且hash桶的長度大於等於MIN_TREEIFY_CAPACITY,連結串列轉化為紅黑樹 // if (binCount >= TREEIFY_THRESHOLD - 1) // -1 for 1st // treeifyBin(tab, hash); break; } //連結串列中包含鍵值對 if (e.hash == hash && ((k = e.key) == key || (key != null && key.equals(k)))) break; p = e; } } //map中含有舊key,返回舊值 if (e != null) { // existing mapping for key V oldValue = e.value; if (!onlyIfAbsent || oldValue == null) e.value = value; // afterNodeAccess(e); return oldValue; } } //map調整次數加1 ++modCount; //鍵值對的數量達到閾值需要擴容 if (++size > threshold) resize2(); return null; } //陣列擴容 public Node<K,V>[] resize() { Node<K,V>[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0; //如果舊hash桶不為空 if (oldCap > 0) { ////超過hash桶的最大長度,將閥值設為最大值 if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; } //新的hash桶的長度2被擴容沒有超過最大長度,將新容量閥值擴容為以前的2倍 //擴大一倍之後,小於最大值,並且大於最小值 else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) //左移1位,也就是擴大2倍 newThr = oldThr << 1; } else if (oldThr > 0) //如果舊的容量為空,判斷閾值是否大於0,如果是那麼就把容量設定為當前閾值 newCap = oldThr; else { // zero initial threshold signifies using defaults newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } //如果閾值還是0,重新計算閾值 if (newThr == 0) { //當HashMap的資料大小>=容量*載入因子時,HashMap會將容量擴容 float ft = (float)newCap * loadFactor; //如果容量還沒超MAXIMUM_CAPACITY的loadFactor時候,那麼就返回ft,否則就是反饋int的最大值 newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } //hash桶的閾值 threshold = newThr; //初始化hash桶 @SuppressWarnings({"rawtypes","unchecked"}) Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab; if (oldTab != null) { //遍歷舊陣列 for (int j = 0; j < oldCap; ++j) { Node<K,V> e; //如果舊的hash桶不為空,需要將舊的hash表裡的鍵值對重新對映到新的hash桶中 if ((e = oldTab[j]) != null) { oldTab[j] = null; //只有一個節點,通過索引位置直接對映 if (e.next == null) newTab[e.hash & (newCap - 1)] = e; //取餘 //如果是紅黑樹,需要進行樹拆分然後對映 // else if (e instanceof TreeNode) // ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); else { // preserve order //如果是多個節點的連結串列,將原連結串列拆分為兩個連結串列,兩個連結串列的索引位置,一個為原索引,一個為原索引加上舊Hash桶長度的偏移量 Node<K,V> loHead = null, loTail = null; Node<K,V> hiHead = null, hiTail = null; Node<K,V> next; do { next = e.next; // 在遍歷原hash桶時的一個連結串列時,因為擴容後長度為原hash表的2倍,假設把擴容後的hash表分為兩半,分為低位和高位, // 如果能把原連結串列的鍵值對, 一半放在低位,一半放在高位,這樣的索引效率是最高的 //這裡的方式是e.hash & oldCap, //經過rehash之後,元素的位置要麼是在原位置,要麼是在原位置再移動2次冪的位置。對應的就是下方的resize的註釋 //為什麼是移動2次冪呢??注意我們計算位置的時候是hash&(length - 1) 那麼如果length * 2 相當於左移了一位 //也就是擷取的就高了一位,如果高了一位的那個二進位制正好為1,那麼結果也相當於加了2倍 //hash & (length * 2 - 1) = length & hash + (length - 1) & hash if ((e.hash & oldCap) == 0) { //如果這個為0,那麼就放到lotail連結串列 if (loTail == null) loHead = e; else loTail.next = e; loTail = e; } else { //如果length & hash 不為0,說明擴容之後位置不一樣了 if (hiTail == null) hiHead = e; else hiTail.next = e; hiTail = e; } } while ((e = next) != null); if (loTail != null) { loTail.next = null; //而這個loTail連結串列就放在原來的位置上 newTab[j] = loHead; } if (hiTail != null) { hiTail.next = null; //因為擴容了2倍,那麼新位置就可以是原來的位置,右移一倍原始容量的大小 newTab[j + oldCap] = hiHead; } } } } } return newTab; } //陣列擴容 public Node<K,V>[] resize2() { Node<K,V>[] oldTab = table; int oldCap = (oldTab == null) ? 0 : oldTab.length; int oldThr = threshold; int newCap, newThr = 0; //如果舊hash桶不為空 if (oldCap > 0) { ////超過hash桶的最大長度,將閥值設為最大值 if (oldCap >= MAXIMUM_CAPACITY) { threshold = Integer.MAX_VALUE; return oldTab; } //新的hash桶的長度2被擴容沒有超過最大長度,將新容量閥值擴容為以前的2倍 //擴大一倍之後,小於最大值,並且大於最小值 else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY && oldCap >= DEFAULT_INITIAL_CAPACITY) //左移1位,也就是擴大2倍 newThr = oldThr << 1; } else if (oldThr > 0) //如果舊的容量為空,判斷閾值是否大於0,如果是那麼就把容量設定為當前閾值 newCap = oldThr; else { // zero initial threshold signifies using defaults newCap = DEFAULT_INITIAL_CAPACITY; newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY); } //如果閾值還是0,重新計算閾值 if (newThr == 0) { //當HashMap的資料大小>=容量*載入因子時,HashMap會將容量擴容 float ft = (float)newCap * loadFactor; //如果容量還沒超MAXIMUM_CAPACITY的loadFactor時候,那麼就返回ft,否則就是反饋int的最大值 newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ? (int)ft : Integer.MAX_VALUE); } //hash桶的閾值 threshold = newThr; //初始化hash桶 @SuppressWarnings({"rawtypes","unchecked"}) Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap]; table = newTab; if (oldTab != null) { //遍歷舊陣列 for (int j = 0; j < oldCap; ++j) { Node<K,V> e; //如果舊的hash桶不為空,需要將舊的hash表裡的鍵值對重新對映到新的hash桶中 if ((e = oldTab[j]) != null) { oldTab[j] = null; //只有一個節點,通過索引位置直接對映 if (e.next == null) newTab[e.hash & (newCap - 1)] = e; //取餘 //如果是紅黑樹,需要進行樹拆分然後對映 // else if (e instanceof TreeNode) // ((TreeNode<K,V>)e).split(this, newTab, j, oldCap); else { // preserve order //如果是多個節點的連結串列,將原連結串列拆分為兩個連結串列,兩個連結串列的索引位置,一個為原索引,一個為原索引加上舊Hash桶長度的偏移量 Node<K,V> next, pre; pre = e; do { next = e.next; //我們這裡直接遍歷設定進去試試 //對hash資料取餘,當然如果還是再原來的位置,那麼就不需要移動 if((e.hash & (oldCap - 1)) != (e.hash & (newCap - 1))) { //1.先從原連結串列斷開 pre.next = next; //2.放到新位置上,我們可以使用頭插法 Node<K,V> newHead, newNext; newHead = newTab[e.hash & (newCap - 1)]; if(newHead == null) { newHead = e; } else { //頭插法 newNext = newHead.next; newHead.next = e; e.next = newNext; } } pre = e; } while ((e = next) != null); } } } } return newTab; } public Node<K, V>[] getTable() { return table; } public void setTable(Node<K, V>[] table) { this.table = table; } public int getThreshold() { return threshold; } public void setThreshold(int threshold) { this.threshold = threshold; } public float getLoadFactor() { return loadFactor; } public void setLoadFactor(float loadFactor) { this.loadFactor = loadFactor; } public int getModCount() { return modCount; } public void setModCount(int modCount) { this.modCount = modCount; } }
注意resize 的擴容操作
1.啥時候擴容???
說白了就資料量超了就擴容被,那麼什麼時候叫超了呢???
很簡單,就是hashmap的當前容量大於cap*loadFactor,cap是可以容納的容量,loadFactor是一個百分比,就是到達多少的量了預設0.75f;
而且這個引數是可以改的
2.還有一種情況,網上說再擴容的時候,使用雙連結串列直接連線的效率很高!!!
在遍歷原hash桶時的一個連結串列時,因為擴容後長度為原hash表的2倍,假設把擴容後的hash表分為兩半,分為低位和高位,
如果能把原連結串列的鍵值對, 一半放在低位,一半放在高位,這樣的索引效率是最高的
這裡的方式是e.hash & oldCap,
經過rehash之後,元素的位置要麼是在原位置,要麼是在原位置再移動2次冪的位置。對應的就是下方的resize的註釋
為什麼是移動2次冪呢??注意我們計算位置的時候是hash&(length - 1) 那麼如果length * 2 相當於左移了一位
也就是擷取的就高了一位,如果高了一位的那個二進位制正好為1,那麼結果也相當於加了2倍
hash & (length * 2 - 1) = length & hash + (length - 1) & hash
我個人比較相信權威,但是我不是很理解,你這樣雙連結串列,你兩個連結串列都要操作一次吧,所有的元素都要進行操作吧
那我為什麼不用單連結串列,頭插法搞呢???
我直接再原連結串列上斷開元素連線,然後把新元素頭插進入新位置會不會更快呢???
說幹就幹,來走一波!!!
搞,測試走起來。。。。
測試用例
@org.junit.jupiter.api.Test public void testResize() { int init = 10000; for(int j = 0; j < 10; ++j) { int size = (int) (init * Math.pow(2, j + 1)); HashMap HashMap1 = new HashMap(); long begin0 = System.currentTimeMillis(); for(int i = 0; i < size; ++i) { HashMap1.put(i, "i" + i); } long end0 = System.currentTimeMillis(); System.out.print("jkd1.8(原滋原味)耗時:" + (end0 - begin0) + "\t"); MyHashMap myHashMap1 = new MyHashMap(); long begin = System.currentTimeMillis(); for(int i = 0; i < size; ++i) { myHashMap1.put(i, "i" + i); } long end = System.currentTimeMillis(); System.out.print("jkd1.8(沒有紅黑樹)耗時:" + (end - begin) + "\t"); MyHashMap myHashMap2 = new MyHashMap(); long begin2 = System.currentTimeMillis(); for(int i = 0; i < size; ++i) { myHashMap2.put2(i, "i" + i); } long end2 = System.currentTimeMillis(); System.out.println("正常取餘連結串列頭插法耗時:" + (end2 - begin2)); } }
來看看結果吧。。。
這。。。
我這又懵逼了???
啥情況???
說好的大神操作呢?
我們再試2次?
結果毫不意外的,簡單的頭插法的擴容效率好像比原版的效率高很多??jdk原始碼中的做法是不是有點過度設計了呢???