有關 HashMap 面試會問的一切

前言

HashMap 是無論在工作還是面試中都非常常見常考的資料結構。

比如 Leetcode 第一題 Two Sum 的某種變種的最優解就是需要用到 HashMap 的，高頻考題 LRU Cache 是需要用到 LinkedHashMap 的。

HashMap 用起來很簡單，底層實現也不復雜，先來看幾道常見的面試題吧。相信大家多多少少都能回答上來一點，不清楚的地方就仔細閱讀本文啦～這篇文章帶你深挖到 HashMap 的老祖宗，保證吊打面試官

== 和 equals() 的區別？

為什麼重寫 equals() 就必須要重寫 hashCode()？

Hashtable, HashSet 和 HashMap 的區別和聯絡

處理 hash 衝突有哪些方法？Java 中用的哪一種？為什麼？另一種方法你在工作中用過嗎？在什麼情況下用得多？

徒手實現一個 HashMap 吧

本文分以下章節：

Set 和 Map 家族簡介
HashMap 實現原理
雜湊衝突詳解
HashMap 基本操作
習題 Two Sum
習題 LRU

Set 家族

在講 Map 之前，我們先來看看 Set。

集合的概念我們初中數學就學過了，就是裡面不能有重複元素，這裡也是一樣。

Set 在 Java 中是一個介面，可以看到它是 java.util 包中的一個集合框架類，具體的實現類有很多：

其中比較常用的有三種：

HashSet: 採用 Hashmap 的 key 來儲存元素，主要特點是無序的，基本操作都是 O(1) 的時間複雜度，很快。

LinkedHashSet: 這個是一個 HashSet + LinkedList 的結構，特點就是既擁有了 O(1) 的時間複雜度，又能夠保留插入的順序。

TreeSet: 採用紅黑樹結構，特點是可以有序，可以用自然排序或者自定義比較器來排序；缺點就是查詢速度沒有 HashSet 快。

Map 家族

Map 是一個鍵值對 (Key - Value pairs)，其中 key 是不可以重複的，畢竟 set 中的 key 要存在這裡面。

那麼與 Set 相對應的，Map 也有這三個實現類：

HashMap: 與 HashSet 對應，也是無序的，O(1)。

LinkedHashMap: 這是一個「HashMap + 雙向連結串列」的結構，落腳點是 HashMap，所以既擁有 HashMap 的所有特性還能有順序。

TreeMap: 是有序的，本質是用二叉搜尋樹來實現的。

HashMap 實現原理

對於 HashMap 中的每個 key，首先通過 hash function 計算出一個 hash 值，這個hash值就代表了在 buckets 裡的編號，而 buckets 實際上是用陣列來實現的，所以把這個數值模上陣列的長度得到它在陣列的 index，就這樣把它放在了陣列裡。

那麼這裡有幾個問題：

如果不同的元素算出了相同的雜湊值，那麼該怎麼存放呢？

答：這就是雜湊碰撞，即多個 key 對應了同一個桶。

HashMap 中是如何保證元素的唯一性的呢？即相同的元素會不會算出不同的雜湊值呢？

答：通過 hashCode() 和 equals() 方法來保證元素的唯一性。

如果 pairs 太多，buckets 太少怎麼破？

答：Rehasing. 也就是碰撞太多的時候，會把陣列擴容至兩倍（預設）。所以這樣雖然 hash 值沒有變，但是因為陣列的長度變了，所以算出來的 index 就變了，就會被分配到不同的位置上了，就不用擠在一起了，小夥伴們我們江湖再見～

那什麼時候會 rehashing 呢？也就是怎麼衡量桶裡是不是足夠擁擠要擴容了呢？

答：load factor. 即用 pair 的數量除以 buckets 的數量，也就是平均每個桶裡裝幾對。Java 中預設值是 0.75f，如果超過了這個值就會 rehashing.

關於 hashCode() 和 equals()

如果 key 的 hashCode() 值相同，那麼有可能是要發生 hash collision 了，也有可能是真的遇到了另一個自己。那麼如何判斷呢？繼續用 equals() 來比較。

也就是說，

hashCode() 決定了 key 放在這個桶裡的編號，也就是在陣列裡的 index；
equals() 是用來比較兩個 object 是否相同的。

那麼該如何回答這道經典面試題：

為什麼重寫 equals() 方法，一定要重寫 hashCode() 呢？

答：首先我們有一個假設：任何兩個 object 的 hashCode 都是不同的。

那麼在這個條件下，有兩個 object 是相等的，那如果不重寫 hashCode()，算出來的雜湊值都不一樣，就會去到不同的 buckets 了，就迷失在茫茫人海中了，再也無法相認，就和 equals() 條件矛盾了，證畢。

撒花～～???

接下來我們再對這兩個方法一探究竟：

其實 hashCode() 和 equals() 方法都是在 Object class 這個老祖宗裡定義的，Object 是所有 Java 中的 class 的鼻祖，預設都是有的，甩不掉的。

那既然是白給的，我們先來看看大禮包裡有什麼，谷歌 Object 的 Oracle 文件：

所以這些方法都是可以直接拿來用的呢～

回到 hashCode() 和 equals()，那麼如果這個新的 class 裡沒有重寫 (override) 這兩個方法，就是預設繼承 Object class 裡的定義了。

那我們點進去來看看 equals() 是怎麼定義的：

記筆記：

equals() 方法就是比較這兩個 references 是否指向了同一個 object.

嗯？？？你在逗我嗎？？那豈不是和 == 一樣了？？

補充：
我們常用的比較大小的符號之 ==
如果是 primitive type，那麼 == 就是比較數值的大小；
如果是 reference type，那麼就比較的是這兩個 reference 是否指向了同一個 object。
再補充：
Java 的資料型別可以分為兩種：
Primitive type 有且僅有8種：byte, short, int, long, float, double, char, boolean.
其他都是 Reference type.
所以雖然 Java 聲稱 “Everything is object”，但是還是有非 object 資料型別的存在的。

我不信，我要去原始碼裡看看它是怎麼實現的。

哈，還真是的，繞了這麼半天，equals() 就是用 == 來實現的！

那為什麼還弄出來這麼個方法呢？

答：為了讓你 override～

比如一般來說我們比較字串就是想比較這兩個字串的內容的，那麼：

str1 = “tianxiaoqi”;
str2 =  new String(“tianxiaoqi”);

str1 == str2; // return false
str1.equals(str2); // return true

因為 String 裡是重寫了 equals() 方法的：

老祖宗留給你就是讓你自己用的，如果你不用，那人家也提供了預設的方法，也是夠意思了。

好了，我們再去看 hashCode() 的介紹：

那至於 hashCode() 返回的究竟是什麼，和本文關聯不太大，有興趣的同學可以看參考這篇文章參考文章")，結論就是：

返回的並不一定是物件的（虛擬）記憶體地址，具體取決於執行時庫和JVM的具體實現。

但無論是怎麼實現的，都需要遵循文件上的約定，也就是對不同的 object 會返回唯一的雜湊值。

### 雜湊衝突詳解

一般來說雜湊衝突有兩大類解決方式

Separate chaining

Open addressing

Java 中採用的是第一種 Separate chaining，即在發生碰撞的那個桶後面再加一條“鏈”來儲存，那麼這個“鏈”使用的具體是什麼資料結構，不同的版本稍有不同：

在 JDK1.6 和 1.7 中，是用連結串列儲存的，這樣如果碰撞很多的話，就變成了在連結串列上的查詢，worst case 就是 O(n)；
在 JDK 1.8 進行了優化，當連結串列長度較大時（超過 8），會採用紅黑樹來儲存，這樣大大提高了查詢效率。

（話說，這個還真的喜歡考，已經在多次面試中被問過了，還有面試官問為什麼是超過“8”才用紅黑樹?）

第二種方法 open addressing 也是非常重要的思想，因為在真實的分散式系統裡，有很多地方會用到 hash 的思想但又不適合用 seprate chaining。

這種方法是順序查詢，如果這個桶裡已經被佔了，那就按照“某種方式”繼續找下一個沒有被佔的桶，直到找到第一個空的。

如圖所示，John Smith 和 Sandra Dee 發生了雜湊衝突，都被計算到 152 號桶，於是 Sandra 就去了下一個空位 - 153 號桶，當然也會對之後的 key 發生影響：Ted Baker 計算結果本應是放在 153 號的，但鑑於已經被 Sandra 佔了，就只能再去下一個空位了，所以到了 154 號。

這種方式叫做 Linear probing 線性探查，就像上圖所示，一個個的順著找下一個空位。當然還有其他的方式，比如去找平方數，或者 Double hashing.

HashMap 基本操作

每種資料結構的基本操作都無外乎增刪改查這四種，具體到 HashMap 來說，

增：put(K key, V value)

刪：remove(Object key)

改：還是用的 put(K key, V value)

查：get(Object key) / containsKey(Object key)

細心的同學可能發現了，為什麼有些 key 的型別是 Object，有些是 K 呢？這還不是因為 equals()...

這是因為，在 get/remove 的時候，不一定是用的同一個 object。

還記得那個 str1 和 str2 都是田小齊的例子嗎？那比如我先 put(str1, value)，然後用 get(str2) 的時候，也是想要到 tianxiaoqi 對應的 value 呀！不能因為我換了身衣服就不認得我了呀！所以在 get/remove 的時候並沒有很限制 key 的型別，方便另一個自己相認。

其實這些 API 的操作流程大同小異，我們以最複雜的 put(K key, V value) 來講：

首先要拿到 array 中要放的位置的 index

怎麼找 index 呢，這裡我們可以單獨用 getIndex() method 來做這件事；
具體怎麼做，就是通過 hash function 算出來的值，模上陣列的長度；

那拿到了這個位置的 Node，我們開始 traverse 這個 LinkedList，這就是在連結串列上的操作了，

如果找的到，就更新一下 value；
如果沒找到，就把它放在連結串列上，可以放頭上，也可以放尾上，一般我喜歡放頭上，因為新加入的元素用到的概率總是大一些，但並不影響時間複雜度。

程式碼如下：

  public V put(K key, V value) {
    int index = getIndex(key);
    Node<K, V> node = array[index];
    Node<K, V> head = node; 
    while (node != null) {
        // 原來有這個 key，僅更新值
        if (checkEquals(key, node)) {
            V preValue = node.value;
            node.value = value;
            return preValue;
        }
        node = node.next;
    }
    // 原來沒有這個 key，新加這個 node
    Node<K, V> newNode = new Node(key, value); 
    newNode.next = head;
    array[index] = newNode;
    return null;
}

至於更多的細節比如加一些 rehashing 啊，load factor 啊，大家可以參考原始碼。

讀完原始碼大家可以做做 Leetcode 706 題練手，so easy~

### 與 Hashtable 的區別
這是一個年齡暴露貼，HashMap 與 Hashtable 的關係，就像 ArrayList 與 Vector，以及 StringBuilder 與 StringBuffer。

Hashtable 是早期 JDK 提供的介面，HashMap 是新版的；
它們之間最顯著的區別，就是 Hashtable 是執行緒安全的，HashMap 並非執行緒安全。

這是因為 Java 5.0 之後允許資料結構不考慮執行緒安全的問題，因為實際工作中我們發現沒有必要在資料結構的層面上上鎖，加鎖和放鎖在系統中是有開銷的，內部鎖有時候會成為程式的瓶頸。

所以 HashMap, ArrayList, StringBuilder 不再考慮執行緒安全的問題，效能提升了很多，當然，執行緒安全問題也就轉移給我們程式設計師了。

另外一個區別就是：HashMap 允許 key 中有 null 值，Hashtable 是不允許的。這樣的好處就是可以給一個預設值。

好了，最後我們再看一道題吧。

Top K 問題

非常常考的 Top K 問題，也是大廠面試中規中矩的題，這兩題大同小異，這裡以第一題為例。

題意：
給一組詞，統計出現頻率最高的 k 個。

比如說 “I love leetcode, I love coding” 中頻率最高的 2 個就是 I 和 love 了。

有同學覺得這題特別簡單，但其實這題只是母題，它可以升級到系統設計層面來問：

在某電商網站上，過去的一小時內賣出的最多的 k 種貨物。

我們先看演算法層面:

思路：

統計下所有詞的頻率，然後按頻率排序取最高的前 k 個唄。

細節：

用 HashMap 存放單詞的頻率，用 minHeap/maxHeap 來取前 k 個。

實現：

建一個 HashMap <key = 單詞，value = 出現頻率>，遍歷整個陣列，相應的把這個單詞的出現次數 + 1.
這一步時間複雜度是 O(n).
用 size = k 的 minHeap 來存放結果，定義好題目中規定的比較順序
a. 首先按照出現的頻率排序；
b. 頻率相同時，按字母順序。
遍歷這個 map，如果

a. minHeap 裡面的單詞數還不到 k 個的時候就加進去；
b. 或者遇到更高頻的單詞就把它替換掉。

時空複雜度分析：

第一步是 O(n)，第三步是 nlog(k)，所以加在一起時間複雜度是 O(nlogk).

用了一個額外的 heap 和 map，空間複雜度是 O(n).

程式碼：

class Solution {
    public List<String> topKFrequent(String[] words, int k) {
        // Step 1
        Map<String, Integer> map = new HashMap<>();
        for (String word : words) {
            Integer count = map.getOrDefault(word, 0);
            count++;
            map.put(word, count);
        }
        
        // Step 2
        PriorityQueue<Map.Entry<String, Integer>> minHeap = new PriorityQueue<>(k+1, new Comparator<Map.Entry<String, Integer>>() {
            @Override
            public int compare(Map.Entry<String, Integer> e1, Map.Entry<String, Integer> e2) {
                if(e1.getValue() == e2.getValue()) {
                    return e2.getKey().compareTo(e1.getKey());
                }
                return e1.getValue().compareTo(e2.getValue());
            }
        });
        
        // Step 3
        List<String> res = new ArrayList<>();
        for(Map.Entry<String, Integer> entry : map.entrySet()) {
            minHeap.offer(entry);
            if(minHeap.size() > k) {
                minHeap.poll();
            }
        }
        while(!minHeap.isEmpty()) {
            res.add(minHeap.poll().getKey());
        }
        Collections.reverse(res);
        return res;
    }
}

LRU Cache

這真的是不論國內面試還是北美面試都非常喜歡考的一道題了。

但是鑑於本文篇幅以及這個週末還加了會班，沒有時間寫了，如果有想看的小夥伴就給我留言吧。