計算機程式的思維邏輯 (41) – 剖析HashSet

swiftma發表於2019-03-03

計算機

本系列文章經補充和完善，已修訂整理成書《Java程式設計的邏輯》（馬俊昌著），由機械工業出版社華章分社出版，於2018年1月上市熱銷，讀者好評如潮！各大網店和書店有售，歡迎購買：京東自營連結

上節介紹了HashMap，提到了Set介面，Map介面的兩個方法keySet和entrySet返回的都是Set，本節，我們來看Set介面的一個重要實現類HashSet。

與HashMap類似，字面上看，HashSet由兩個單片語成，Hash和Set，Set表示介面，實現Set介面也有多種方式，各有特點，HashSet實現的方式利用了Hash。

下面，我們先來看HashSet的用法，然後看實現原理，最後我們總結分析下HashSet的特點。

用法

Set介面

Set表示的是沒有重複元素、且不保證順序的容器介面，它擴充套件了Collection，但沒有定義任何新的方法，不過，對於其中的一些方法，它有自己的規範。

Set介面的完整定義為：

public interface Set<E> extends Collection<E> {
    int size();
    boolean isEmpty();
    boolean contains(Object o);
    Iterator<E> iterator();
    Object[] toArray();
    <T> T[] toArray(T[] a);
    boolean add(E e);
    boolean remove(Object o);
    boolean containsAll(Collection<?> c);
    boolean addAll(Collection<? extends E> c);
    boolean retainAll(Collection<?> c);
    boolean removeAll(Collection<?> c);
    void clear();
    boolean equals(Object o);
    int hashCode();
}
複製程式碼

與Collection介面中定義的方法是一樣的，不過，一些方法有一些不同的規範要求。

新增元素

boolean add(E e);
複製程式碼

如果集合中已經存在相同元素了，則不會改變集合，直接返回false，只有不存在時，才會新增，並返回true。

批量新增

boolean addAll(Collection<? extends E> c);
複製程式碼

重複的元素不新增，不重複的新增，如果集合有變化，返回true，沒變化返回false。

迭代器

Iterator<E> iterator();
複製程式碼

迭代遍歷時，不要求元素之間有特別的順序。HashSet的實現就是沒有順序，但有的Set實現可能會有特定的順序，比如TreeSet，我們後續章節介紹。

HashSet

與HashMap類似，HashSet的構造方法有：

public HashSet()
public HashSet(int initialCapacity)
public HashSet(int initialCapacity, float loadFactor)
public HashSet(Collection<? extends E> c)
複製程式碼

initialCapacity和loadFactor的含義與HashMap中的是一樣的，待會我們再細看。

HashSet的使用也很簡單，比如：

Set<String> set = new HashSet<String>();
set.add("hello");
set.add("world");
set.addAll(Arrays.asList(new String[]{"hello","老馬"}));

for(String s : set){
    System.out.print(s+" ");
}
複製程式碼

輸出為：

hello 老馬 world 
複製程式碼

“hello”被新增了兩次，但只會儲存一份，輸出也沒有什麼特別的順序。

hashCode與equals

與HashMap類似，HashSet要求元素重寫hashCode和equals方法，且對兩個物件，equals相同，則hashCode也必須相同，如果元素是自定義的類，需要注意這一點。

比如說，有一個表示規格的類Spec，有大小和顏色兩個屬性：

class Spec {
    String size;
    String color;
    
    public Spec(String size, String color) {
        this.size = size;
        this.color = color;
    }

    @Override
    public String toString() {
        return "[size=" + size + ", color=" + color + "]";
    }
}
複製程式碼

看一個Spec的Set：

Set<Spec> set = new HashSet<Spec>();
set.add(new Spec("M","red"));
set.add(new Spec("M","red"));

System.out.println(set);
複製程式碼

輸出為：

[[size=M, color=red], [size=M, color=red]]
複製程式碼

同一個規格輸出了兩次，為避免這一點，需要為Spec重寫hashCode和equals方法，利用IDE開發工具往往可以自動生成這兩個方法，比如Eclipse中，可以通過”Source”->”Generate hashCode() and equals() …”，我們就不贅述了。

應用場景

HashSet有很多應用場景，比如說：

排重，如果對排重後的元素沒有順序要求，則HashSet可以方便的用於排重。
儲存特殊值，Set可以用於儲存各種特殊值，程式處理使用者請求或資料記錄時，根據是否為特殊值，進行特殊處理，比如儲存IP地址的黑名單或白名單。
集合運算，使用Set可以方便的進行數學集合中的運算，如交集、並集等運算，這些運算有一些很現實的意義。比如使用者標籤計算，每個使用者都有一些標籤，兩個使用者的標籤交集就表示他們的共同特徵，交集大小除以並集大小可以表示他們的相似長度。

實現原理

內部組成

HashSet內部是用HashMap實現的，它內部有一個HashMap例項變數，如下所示：

private transient HashMap<E,Object> map;
複製程式碼

我們知道，Map有鍵和值，HashSet相當於只有鍵，值都是相同的固定值，這個值的定義為：

private static final Object PRESENT = new Object();
複製程式碼

理解了這個內部組成，它的實現方法也就比較容易理解了，我們來看下程式碼。

構造方法

HashSet的構造方法，主要就是呼叫了對應的HashMap的構造方法，比如：

public HashSet(int initialCapacity, float loadFactor) {
    map = new HashMap<>(initialCapacity, loadFactor);
}

public HashSet(int initialCapacity) {
    map = new HashMap<>(initialCapacity);
}

public HashSet() {
    map = new HashMap<>();
}
複製程式碼

接受Collection引數的構造方法稍微不一樣，程式碼為：

public HashSet(Collection<? extends E> c) {
    map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
    addAll(c);
}
複製程式碼

也很容易理解，c.size()/.75f用於計算initialCapacity，0.75f是loadFactor的預設值。

新增元素

我們看add方法的程式碼：

public boolean add(E e) {
    return map.put(e, PRESENT)==null;
}
複製程式碼

就是呼叫map的put方法，元素e用於鍵，值就是那個固定值PRESENT，put返回null表示原來沒有對應的鍵，新增成功了。HashMap中一個鍵只會儲存一份，所以重複新增HashMap不會變化。

檢查是否包含元素

程式碼為：

public boolean contains(Object o) {
    return map.containsKey(o);
}
複製程式碼

就是檢查map中是否包含對應的鍵。

刪除元素

程式碼為：

public boolean remove(Object o) {
    return map.remove(o)==PRESENT;
}
複製程式碼

就是呼叫map的remove方法，返回值為PRESENT表示原來有對應的鍵且刪除成功了。

迭代器

程式碼為：

public Iterator<E> iterator() {
    return map.keySet().iterator();
}
複製程式碼

就是返回map的keySet的迭代器。

HashSet特點分析

HashSet實現了Set介面，內部是通過HashMap實現的，這決定了它有如下特點：

沒有重複元素
可以高效的新增、刪除元素、判斷元素是否存在，效率都為O(1)。
沒有順序

如果需求正好符合這些特點，那HashSet就是一個理想的選擇。

小結

本節介紹了HashSet的用法和實現原理，它實現了Set介面，不含重複元素，內部實現利用了HashMap，可以方便高效地實現如去重、集合運算等功能。

同HashMap一樣，HashSet沒有順序，如果要保持新增的順序，可以使用HashSet的一個子類LinkedHashSet。Set還有一個重要的實現類，TreeSet，它可以排序。這兩個類，我們留待後續章節介紹。

HashMap和HashSet的共同實現機制是雜湊表，Map和Set還有一個重要的共同實現機制，樹，實現類分別是TreeMap和TreeSet，讓我們在接下來的兩節中探討。

未完待續，檢視最新文章，敬請關注微信公眾號“老馬說程式設計”(掃描下方二維碼)，深入淺出，老馬和你一起探索Java程式設計及計算機技術的本質。用心原創，保留所有版權。

計算機程式的思維邏輯 (50) – 剖析EnumMap
2019-03-01
計算機
計算機程式的思維邏輯 (29) – 剖析String
2019-02-25
計算機
計算機程式的思維邏輯 (30) – 剖析StringBuilder
2019-02-25
計算機UI
計算機程式的思維邏輯 (43) – 剖析TreeMap
2019-03-04
計算機
計算機程式的思維邏輯 (44) – 剖析TreeSet
2019-02-19
計算機
計算機程式的思維邏輯 (84) – 反射
2019-03-01
計算機反射
計算機程式的思維邏輯 (34) – 隨機
2019-03-01
計算機隨機
計算機程式的思維邏輯 (82) – 理解ThreadLocal
2019-02-28
計算機thread
計算機程式的思維邏輯 (71) – 顯式鎖
2019-02-25
計算機
計算機程式的思維邏輯 (56) – 檔案概述
2019-02-18
計算機
計算機程式的思維邏輯 (14) – 類的組合
2019-03-03
計算機
計算機程式的思維邏輯 (83) – 併發總結
2019-03-03
計算機
計算機程式的思維邏輯 (72) – 顯式條件
2019-02-25
計算機
計算機程式的思維邏輯 (55) – 容器類總結
2019-03-02
計算機
計算機程式的思維邏輯 (23) – 列舉的本質
2019-02-28
計算機
計算機程式的思維邏輯 (94) – 組合式非同步程式設計
2019-02-27
計算機非同步程式設計
計算機程式的思維邏輯 (88) – 正規表示式 (上)
2019-03-02
計算機
計算機程式的思維邏輯 (70) – 原子變數和CAS
2019-03-04
計算機變數
計算機程式的思維邏輯 (47) – 堆和PriorityQueue的應用
2019-02-19
計算機
計算機程式的思維邏輯 (20) – 為什麼要有抽象類？
2019-03-02
計算機抽象
計算機程式的思維邏輯 (28) – 剖析包裝類 (下) – 理解Java Unicode處理的基礎
2019-01-03
計算機JavaUnicode
計算機程式的思維邏輯 (15) – 初識繼承和多型
2019-03-03
計算機繼承多型
計算機程式的思維邏輯 (12) – 函式呼叫的基本原理
2019-03-04
計算機函式
計算機程式的思維邏輯 (68) – 執行緒的基本協作機制 (下)
2019-03-04
計算機執行緒
計算機程式的思維邏輯 (63) – 實用序列化: JSON/XML/MessagePack
2019-02-22
計算機JSONXML
計算機程式的思維邏輯 (93) – 函式式資料處理 (下)
2019-01-20
計算機函式
計算機程式的思維邏輯 (18) – 為什麼說繼承是把雙刃劍
2019-03-04
計算機繼承
程式設計師，你的邏輯思維有多強？
2021-11-25
程式設計師
軍事思維者的思考邏輯
2018-05-31
提升思維邏輯—SimpleMind Pro（思維導圖） for Mac/win
2024-01-09
Mac
如何建立強大的邏輯思維能力？
2022-12-30
測試筆試邏輯思維題
2018-05-27
筆試
計算機程式的思維邏輯 (64) – 常見檔案型別處理: 屬性檔案/CSV/EXCEL/HTML/壓縮檔案
2019-01-02
計算機型別ExcelHTML
計算思維
2024-07-13
做一個有產品思維的研發：邏輯設計
2019-04-19
計算機程式的思維邏輯 (61) – 記憶體對映檔案及其應用 – 實現一個簡單的訊息佇列
2019-02-25
計算機記憶體佇列
Oracle OCP(41)：邏輯結構
2019-04-17
Oracle
利用 Python 引導孩子的計算機思維
2019-07-17
Python計算機

計算機程式的思維邏輯 (41) – 剖析HashSet

用法

Set介面

HashSet

hashCode與equals

應用場景

實現原理

內部組成

構造方法

新增元素

檢查是否包含元素

刪除元素

迭代器

HashSet特點分析

小結

相關文章