看完這篇 HashSet，跟面試官扯皮沒問題了

風的姿態發表於2020-07-01

原文網址 : https://www.cnblogs.com/fengzheng/p/13217974.html

我是風箏，公眾號「古時的風箏」，一個兼具深度與廣度的程式設計師鼓勵師，一個本打算寫詩卻寫起了程式碼的田園碼農！
文章會收錄在 JavaNewBee 中，更有 Java 後端知識圖譜，從小白到大牛要走的路都在裡面。

之前的7000 字說清楚 HashMap已經詳細介紹了 HashMap 的原理和實現，本次再來說說他的同胞兄弟 HashSet，這兩兄弟經常被拿出來一起說，面試的時候，也經常是兩者結合著考察。難道它們兩個的實現方式很類似嗎，不然為什麼總是放在一起比較。

實際上並不是因為它倆相似，從根本上來說，它倆本來就是同一個東西。再說的清楚明白一點， HashSet 就是個套了殼兒的 HashMap。所謂君子善假於物，HashSet 就假了 HashMap。既然你 HashMap 都擺在那兒了，那我 HashSet 何必重複造輪子，借你一樣，何不美哉！

HashSet

HashSet 是什麼

下面是 HashSet的繼承關係圖，還是老樣子，我們看一個資料結構的時候先看它的繼承關係圖。與 HashSet並列的還有 TreeSet，另外 HashSet 還有個子型別 LinkedHashSet，這個我們後面再說。

HashSet 結構

套殼 HashMap

為啥這麼說呢，在我第一次看 HashSet原始碼的時候，已經準備好了筆記本，拿好了圓珠筆，準備好好探究一下 HashSet的神奇所在。可當我按著Ctrl+滑鼠左鍵進入原始碼的建構函式的時候，我以為我走錯了地方，這建構函式有點簡單，甚至還有點神奇。new 了一個 HashMap並且賦給了 map 屬性。

private transient HashMap<E,Object> map;

public HashSet() {
  map = new HashMap<>();
}

再三確認沒看錯的情況下，我明白了，HashSet就是在HashMap的基礎上套了個殼兒，我們用的是個HashSet，實際上它的內部儲存邏輯都是 HashMap的那套邏輯。

除了上面的那個無參型別的構造方法，還有其他的有參構造方法，一看便知，其實就是 HashMap包裝了一層而已。

public HashSet(Collection<? extends E> c) {
  map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
  addAll(c);
}

public HashSet(int initialCapacity, float loadFactor) {
  map = new HashMap<>(initialCapacity, loadFactor);
}

public HashSet(int initialCapacity) {
  map = new HashMap<>(initialCapacity);
}

用法

HashSet應該算是眾多資料結構中最簡單的一個了，滿打滿算也就那麼幾個方法。

public Iterator<E> iterator() {
  return map.keySet().iterator();
}

public int size() {
  return map.size();
}

public boolean isEmpty() {
  return map.isEmpty();
}

public boolean contains(Object o) {
  return map.containsKey(o);
}

public boolean add(E e) {
  return map.put(e, PRESENT)==null;
}

public boolean remove(Object o) {
  return map.remove(o)==PRESENT;
}

public void clear() {
  map.clear();
}

很簡單對不對，就這麼幾個方法，而且你看每個方法其實都是對應的操作 map，也就是內部的 HashMap，也就是說只要你懂了 HashMap自然也就懂了 HashSet。

保證不重複

Set介面要求不能有重複項，只要繼承了 Set就要遵守這個規定。我們大多數情況下使用 HashSet也是因為它有去重的功能。

那它是如何辦到的呢，這就要從它的 add方法說起了。

// Dummy value to associate with an Object in the backing Map
private static final Object PRESENT = new Object();
public boolean add(E e) {
  return map.put(e, PRESENT)==null;
}

HashSet的 add方法其實就是呼叫了HashMap的put方法，但是我們都知道 put進去的是一個鍵值對，但是 HashSet存的不是鍵值對啊，是一個泛型啊，那它是怎麼辦到的呢？

它把你要存的值當做 HashMap的 key，而 value 值是一個 final的Object物件，只起一個佔位作用。而HashMap本身就不允許重複鍵，正好被HashSet拿來即用。

如何保證不重複呢

HashMap中不允許存在相同的 key 的，那怎麼保證 key 的唯一性呢，判斷的程式碼如下。

if (p.hash == hash &&
        ((k = p.key) == key || (key != null && key.equals(k))))

首先通過 hash 演算法算出的值必須相等，算出的結果是 int，所以可以用 == 符號判斷。只是這個條件可不行，要知道雜湊碰撞是什麼意思，有可能兩個不一樣的 key 最後產生的 hash 值是相同的。

並且待插入的 key == 當前索引已存在的 key，或者待插入的 key.equals(當前索引已存在的key)，注意== 和 equals 是或的關係。== 符號意味著這是同一個物件， equals 用來確定兩個物件內容相同。

如果 key 是基本資料型別，比如 int，那相同的值肯定是相等的，並且產生的 hashCode 也是一致的。

String 型別算是最常用的 key 型別了，我們都知道相同的字串產生的 hashCode 也是一樣的，並且字串可以用 equals 判斷相等。

但是如果用引用型別當做 key 呢，比如我定義了一個 MoonKey 作為 key 值型別

public class MoonKey {

    private String keyTile;

    public String getKeyTile() {
        return keyTile;
    }

    public void setKeyTile(String keyTile) {
        this.keyTile = keyTile;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (o == null || getClass() != o.getClass()) return false;
        MoonKey moonKey = (MoonKey) o;
        return Objects.equals(keyTile, moonKey.keyTile);
    }
}

然後用下面的程式碼進行兩次新增，你說 size 的長度是 1 還是 2 呢？

Map<MoonKey, String> m = new HashMap<>();
MoonKey moonKey = new MoonKey();
moonKey.setKeyTile("1");
MoonKey moonKey1 = new MoonKey();
moonKey1.setKeyTile("1");
m.put(moonKey, "1");
m.put(moonKey1, "2");
System.out.println(hash(moonKey));
System.out.println(hash(moonKey1));
System.out.println(m.size());

答案是 2 ，為什麼呢，因為 MoonKey 沒有重寫 hashCode 方法，導致 moonkey 和 moonKey1 的 hash 值不可能一樣，當不重寫 hashCode 方法時，預設繼承自 Object的 hashCode 方法，而每個 Object物件的 hash 值都是獨一無二的。

劃重點，正確的做法應該是加上 hashCode的重寫。

@Override
public int hashCode() {
  return Objects.hash(keyTile);
}

這也是為什麼要求重寫 equals 方法的同時，也必須重寫 hashCode方法的原因之一。如果兩個物件通過呼叫equals方法是相等的，那麼這兩個物件呼叫hashCode方法必須返回相同的整數。有了這個基礎才能保證 HashMap或者HashSet的 key 唯一。

非執行緒安全

由於HashMap不是執行緒安全的，自然，HashSet也不是執行緒安全啦。在多執行緒、高併發環境中慎用，如果要用的話怎麼辦呢，不像 HashMap那樣有多執行緒版本的ConcurrentHashMap，不存在 ``ConcurrentHashSet`這種資料結構，如果想用的話要用下面這種方式。

Set<String> set = Collections.synchronizedSet(new HashSet<String>());

或者使用 ConcurrentHashMap.KeySetView也可以，但是，這其實就不是 HashSet了，而是 ConcurrentHashMap的一個實現了 Set介面的靜態內部類，多執行緒情況下使用起來完全沒問題。

ConcurrentHashMap.KeySetView<String,Boolean> keySetView = ConcurrentHashMap.newKeySet();
keySetView.add("a");
keySetView.add("b");
keySetView.add("c");
keySetView.add("a");
keySetView.forEach(System.out::println);

LinkedHashSet

如果說 HashSet是套殼兒HashMap，那麼LinkedHashSet就是套殼兒LinkedHashMap。對比 HashSet，它的一個特點就是保證資料有序，插入的時候什麼順序，遍歷的時候就是什麼順序。

看一下它其中的無參建構函式。

public LinkedHashSet() {
  super(16, .75f, true);
}

LinkedHashSet繼承自 HashSet，所以 super(16, .75f, true);是呼叫了HashSet三個引數的建構函式。

HashSet(int initialCapacity, float loadFactor, boolean dummy) {
  map = new LinkedHashMap<>(initialCapacity, loadFactor);
}

這次不是 new HashMap了，而是 new 了一個 LinkedHashMap，這就是它能保證有序性的關鍵。LinkedHashMap用雙向連結串列的方式在 HashMap的基礎上額外儲存了鍵值對的插入順序。

HashMap中定義了下面這三個方法，這三個方法是在插入和刪除鍵值對的時候呼叫的方法，用來維護雙向連結串列，在LinkedHashMap中有具體的實現。

// Callbacks to allow LinkedHashMap post-actions
void afterNodeAccess(Node<K,V> p) { }
void afterNodeInsertion(boolean evict) { }
void afterNodeRemoval(Node<K,V> p) { }

由於LinkedHashMap可以保證鍵值對順序，所以，用來實現簡單的 LRU 快取。

所以，如果你有場景既要保證元素無重複，又要保證元素有序，可以使用 LinkedHashSet。

最後

其實你掌握了 HashMap就掌握了 HashSet，它沒有什麼新東西，就是巧妙的利用了 HashMap而已，新不新不要緊，好用才是最重要的。

壯士且慢，先給點個贊吧，總是被白嫖，身體吃不消！

我是風箏，公眾號「古時的風箏」。一個兼具深度與廣度的程式設計師鼓勵師，一個本打算寫詩卻寫起了程式碼的田園碼農！你可選擇現在就關注我，或者看看歷史文章再關注也不遲。

看完這篇HTTP，跟面試官扯皮就沒問題了
2020-01-11
HTTP面試
看完這篇 HashMap，和麵試官扯皮就沒問題了
2020-06-23
HashMap
看完這篇 Session、Cookie、Token，和麵試官扯皮就沒問題了
2020-04-05
SessionCookie
看完這篇 final、finally 和 finalize 和麵試官扯皮就沒問題了
2020-11-02
看完這篇作業系統，和麵試官扯皮就沒問題了
2020-05-15
作業系統
學完這篇依賴注入，與面試官扯皮就沒有問題了。
2020-10-19
依賴注入面試
看完這篇，再也不怕面試官問我執行緒池了
2020-12-02
面試執行緒
看完這篇，Promise面試就搞定了...
2018-07-30
Promise面試
看完這一篇，再也不怕面試官問到IntentService的原理
2020-07-28
面試Intent
學完了這篇JVM，面試官真拿我沒辦法了！
2021-05-31
JVM面試
征服面試官：OkHttp 原理篇掌握這篇面試題彙總，吊打面試官！
2020-12-31
HTTP面試題
面試 HTTP ，99% 的面試官都愛問這些問題
2020-04-20
面試HTTP
看完這篇快取穿透的文章，又能和麵試官互扯了~
2020-04-27
快取穿透
詢問面試官的面試問題
2022-04-19
面試
深度分析：面試90%被問到的 Session、Cookie、Token，看完這篇你就掌握了！
2020-06-15
面試SessionCookie
這15道MySQL面試題，解決了90%的面試官
2020-10-29
MySql面試題
面經手冊 · 第12篇《面試官，ThreadLocal 你要這麼問，我就掛了！》
2020-09-24
面試thread
看了這篇Dubbo RPC面試題，讓天下沒有難面的面試題！
2019-05-08
RPC面試題
面試中關於Redis的問題看這篇就夠了
2019-01-19
面試Redis
測試面試題集錦（六）| 軟素質篇與反問面試官篇（附答案）
2020-08-16
面試題
面試官問PHP四大主流框架的優缺點，看這篇就夠了！
2021-04-14
面試PHP框架
圖解 Java 執行緒的生命週期，看完再也不怕面試官問了
2019-04-22
圖解Java執行緒面試
想去Google做AI？先看完這套面試指南（附面試題）
2018-04-18
GoAI面試題
看完這篇 Android ANR 分析，就可以和麵試官裝逼了！
2019-01-15
Android
位元組跳動面試官這樣問有關字串的問題！！
2021-02-26
面試字串
害怕面試被問HashMap？這一篇就搞定了！
2020-01-17
面試HashMap
HTML教程（看完這篇就夠了）
2021-02-17
HTML
測試用例如何評審，看完這篇就會了
2022-12-25
設計模式這話題，我面試又被問了
2021-11-30
設計模式面試
手撕面試官系列：BAT面試常問85題
2019-08-02
面試BAT
【面試篇】金九銀十面試季，這些面試題你都會了嗎?
2020-09-15
面試題
99面試常問：中高階開發面試必問的Redis，看這篇就夠了！
2020-11-21
面試Redis
程式設計師注意了！面試官在問這些問題時，到底是在考什麼？
2019-03-20
程式設計師面試
面經手冊 · 開篇《面試官都問我啥》
2020-07-29
面試
面試官:你能回答這兩個簡單的問題嗎
2022-05-24
面試
面試現場：這些常問的面試題你都會了嗎
2019-04-23
面試題
應付Android面試看這一篇文就夠了（含面試真題）
2021-11-07
Android面試
拜託，面試官別問我「布隆」了
2019-03-23
面試