教妹學 Java：大有可為的集合

沉默王二發表於2019-05-24

原文網址 : https://juejin.im/post/5ce7533b6fb9a07ec63aee34

Java

00、故事的起源

“二哥，上一篇《泛型》的反響效果怎麼樣啊？”三妹對她提議的《教妹學 Java》專欄很是關心。

“有人評論說，‘二哥你敲程式碼都敲出幻想了啊。’”

“呵呵，這句話充斥著滿滿的諷刺意味啊。”三妹有點難過了起來。

“不過，也有人評論說，‘建議這個系列的文章多寫啊，因為我花了半個月都沒看懂《 Java 程式設計思想》中關於泛型的講解，但再看完這篇文章後終於融會貫通了，比心。’”

“二哥，你能不能先說好訊息啊？真是的。我也要給這位暖心的讀者比心了。”三妹說完這句話就在我面前比了一個心，我瞅了她一眼，發現她之前的愁容也無影無蹤了。

“那接下來，二哥還要繼續寫嗎？”我看到了三妹深情的目光。

“嗯，我想該寫集合了。”

“那就讓我繼續來提問吧，二哥你繼續來回答。”三妹已經躍躍欲試了。

01、二哥，什麼是集合啊？

三妹，聽哥慢慢給你講啊。

JDK 1.2 的時候引入了集合的概念，用來包含一組資料結構。與陣列不同的是，這些資料結構的儲存空間會隨著元素增加而動態增加。其中，有一些集合類支援新增重複元素，而另一些不支援；有一些支援新增 null 元素，而另一些不支援。

可以根據繼承體系將集合分為兩大類，一類實現了 Collection 介面（見圖 1），另一類實現了 Map 介面（見圖 2）。

圖 1 圖 1

介紹一下圖 1：

1）Collection 是所有集合類的根介面。

2）Set 介面的實現類不允許重複的元素，例如 HashSet、LinkedHashSet。

3）List 介面的實現類允許重複元素，可通過 index 訪問對應位置上的元素，例如 LinkedList、ArrayList。

4）Queue 介面的實現類允許在佇列的尾部或者頭部增加或者刪除元素，例如 PriorityQueue。

圖 2 圖 2

介紹一下圖 2：

1）HashMap 是最常用的 Map，可以根據鍵直接獲取對應的值，它根據鍵的 hashCode 值儲存資料，所以訪問速度非常快。HashMap 最多隻允許一條記錄的鍵為 null (多條會覆蓋)；但允許多條記錄的值為 null。

2）TreeMap 能夠把它儲存的記錄根據鍵（不允許鍵的值為 null）排序，預設是升序，也可以指定排序的比較器，當用迭代器（Iterator）遍歷 TreeMap 時，得到的記錄是排過序的。

3）Hashtable 的鍵和值均不允許為 null，是執行緒同步的，也就是說任一時刻只有一個執行緒能寫 Hashtable，執行緒同步會消耗掉一些效能，因此 Hashtable 在寫入時花費的時間也會比較多。

4）LinkedHashMap 儲存了記錄的插入順序，當用迭代器（Iterator）遍歷 LinkedHashMap 時，先得到的記錄肯定是先插入的。鍵和值均允許為 null。

有了集合的幫助，程式設計師不再需要親自實現元素的排序、查詢等底層演算法了。另外，基於陣列實現的集合類在頻繁讀取時效能更佳，比如說 ArrayList；基於佇列實現的集合類在頻繁增加、更新、刪除資料時效率更高，比如說 LinkedList；程式設計師所要做的就是，根據業務需要選擇適當的集合類，至於效能調優嘛，可以微信找二哥。

02、二哥，LinkedList 和 ArrayList 有什麼區別啊？

三妹，剛提完問題就打盹啊，繼續聽哥給你慢慢講啊。

LinkedList 其實是一個雙向連結串列，來看原始碼。

public class LinkedList<E>
{
    transient int size = 0;

    /**
     * Pointer to first node.
     * Invariant: (first == null && last == null) ||
     *            (first.prev == null && first.item != null)
     */
    transient Node<E> first;

    /**
     * Pointer to last node.
     * Invariant: (first == null && last == null) ||
     *            (last.next == null && last.item != null)
     */
    transient Node<E> last;

    private static class Node<E> {
        E item;
        Node<E> next;
        Node<E> prev;

        Node(Node<E> prev, E element, Node<E> next) {
            this.item = element;
            this.next = next;
            this.prev = prev;
        }
    }
}

1）LinkedList 包含一個非常重要的內部類——Node。Node 是節點所對應的資料結構，item 為當前節點的值，prev 為上一個節點，next 為下一個節點——這也正是“雙向”連結串列的原因。first 為 LinkedList 的第一個節點，last 為最後一個節點。

2）size 是 LinkedList 的節點個數。當往 LinkedList 新增一個元素時，size+1，刪除一個元素時，size-1。

ArrayList 其實是一個動態陣列，來看原始碼。

public class ArrayList<E>
{
     /**
     * The array buffer into which the elements of the ArrayList are stored.
     * The capacity of the ArrayList is the length of this array buffer. Any
     * empty ArrayList with elementData == DEFAULTCAPACITY_EMPTY_ELEMENTDATA
     * will be expanded to DEFAULT_CAPACITY when the first element is added.
     */
    transient Object[] elementData; // non-private to simplify nested class access

    /**
     * The size of the ArrayList (the number of elements it contains).
     *
     * @serial
     */
    private int size;
}

1）elementData 是 Object 型別的陣列，用來儲存新增到 ArrayList 中的元素。如果通過預設構造引數建立 ArrayList 物件時，elementData 的預設大小是 10。當 ArrayList 容量不足以容納全部元素時，就會重新設定容量，新的容量 = 原始容量 + (原始容量 >> 1)（參照以下程式碼）。

private void grow(int minCapacity) {
    // overflow-conscious code
    int oldCapacity = elementData.length;
    int newCapacity = oldCapacity + (oldCapacity >> 1);
    elementData = Arrays.copyOf(elementData, newCapacity);
}

>> 運算子還沒有駕馭了。不過，通過程式碼測試後的結論是，當原始容量為 10 的時候，新的容量為 15；當原始容量為 20 的時候，新的容量為 30。

2） size 是 ArrayList 的元素個數。當往 ArrayList 新增一個元素時，size+1，刪除一個元素時，size-1。

由於 LinkedList 和 ArrayList 底層實現的不同（一個雙向連結串列，一個動態陣列），它們之間的區別也很一目瞭然。

關鍵點1 ：LinkedList 在新增（add(E e)）、插入（add(int index, E element)）、刪除（remove(int index)）元素的效能上遠超 ArrayList。

為什麼呢？先來看 ArrayList 的相關原始碼。

// ensureCapacityInternal() 方法內部會呼叫 System.arraycopy()
public boolean add(E e) {
    ensureCapacityInternal(size + 1);  // Increments modCount!!
    elementData[size++] = e;
    return true;
}

public void add(int index, E element) {
    System.arraycopy(elementData, index, elementData, index + 1,
                     size - index);
    elementData[index] = element;
    size++;
}

public E remove(int index) {
    E oldValue = elementData(index);

    int numMoved = size - index - 1;
    if (numMoved > 0)
        System.arraycopy(elementData, index+1, elementData, index,
                         numMoved);
    elementData[--size] = null; // clear to let GC do its work

    return oldValue;
}

觀察 ArrayList 的原始碼，就能夠發現，ArrayList 在新增、插入、刪除元素的時候，會有意或者無意（擴容）的呼叫 System.arraycopy(Object src, int srcPos, Object dest, int destPos, int length) 方法，該方法對效能的損耗是非常嚴重的。

再來看 LinkedList 的相關原始碼。

/**
 * Links e as last element.
 */
void linkLast(E e) {
    final Node<E> l = last;
    final Node<E> newNode = new Node<>(l, e, null);
    last = newNode;
    if (l == null)
        first = newNode;
    else
        l.next = newNode;
}
/**
 * Unlinks non-null node x.
 */
E unlink(Node<E> x) {

    if (prev == null) {
        first = next;
    } else {
        prev.next = next;
        x.prev = null;
    }

    if (next == null) {
        last = prev;
    } else {
        next.prev = prev;
        x.next = null;
    }

    x.item = null;
    return element;
}

LinkedList 不存在擴容的問題，也不需要對原有的元素進行復制；只需要改變節點的資料就好了。

關鍵點2：LinkedList 在查詢元素時要慢於 ArrayList。

為什麼呢？先來看 LinkedList 的相關原始碼。

/**
 * Returns the (non-null) Node at the specified element index.
 */
Node<E> node(int index) {
    // assert isElementIndex(index);

    if (index < (size >> 1)) {
        Node<E> x = first;
        for (int i = 0; i < index; i++)
            x = x.next;
        return x;
    } else {
        Node<E> x = last;
        for (int i = size - 1; i > index; i--)
            x = x.prev;
        return x;
    }
}

觀察 LinkedList 的原始碼，就能夠發現， LinkedList 在定位 index 的時候會先判斷位置（是在 1 / 2 的前面還是後面），再從前往後或者從後往前執行 for 迴圈依次找。

再來看 ArrayList 的相關原始碼。

@SuppressWarnings("unchecked")
E elementData(int index) {
    return (E) elementData[index];
}

ArrayList 直接根據 index 從陣列中取出該位置上的元素，不需要 for 迴圈遍歷啊——這樣顯然更快！

03、二哥，HashMap 和 TreeMap 有什麼區別啊？

三妹，提問題越來越有藝術了啊？繼續聽哥給你慢慢講啊。

HashMap 儲存的是鍵值對，其鍵是一個雜湊碼（Hash 的直譯，也稱作雜湊）。來看原始碼。

public class HashMap<K,V>
{
    transient Node<K,V>[] table;
    static class Node<K,V> implements Map.Entry<K,V> {
        final int hash;
        final K key;
        V value;
        Node<K,V> next;
    }
    public HashMap(int initialCapacity, float loadFactor) {
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }
}

1）table 是一個 Node 陣列，而 Node 是一個單向連結串列（只有 next）。HashMap 的鍵值對就儲存在 table 陣列中。

2）loadFactor 就是大名鼎鼎的載入因子，預設的載入因子是 0.75, 據說這是在時間和空間成本上尋求的一種折衷。

3）initialCapacity 就是初始容量，預設為 16。
　　
4）threshold 是 HashMap 的閾值——判斷是否需要對 HashMap 進行擴容，threshold 的值 = 容量 * 載入因子，當 HashMap 中儲存的資料數量達到 threshold 時，就需要將 HashMap 的容量加倍。

“初始容量” 和 “載入因子”對 HashMap 的效能影響頗大。容量是 HashMap 中桶（見下圖）的數量，初始容量只是 HashMap 在建立時的容量。載入因子是 HashMap 在其容量自動增加之前可以達到多滿的一種尺度。

TreeMap 儲存的是有序的鍵值對，基於紅黑樹（Red-Black tree）實現。可以在初始化的時候指定鍵位的排序方式，如果沒有指定的話就根據鍵位的自然順序進行排序。來看原始碼。

public class TreeMap<K,V>
{
    private final Comparator<? super K> comparator;
    private transient Entry<K,V> root;
    private static final boolean RED   = false;
    private static final boolean BLACK = true;
    static final class Entry<K,V> implements Map.Entry<K,V> {
        K key;
        V value;
        Entry<K,V> left;
        Entry<K,V> right;
        Entry<K,V> parent;
        boolean color = BLACK;
    }
}

1）root 是紅黑樹的根節點，是一個 Entry 型別（按照 key 進行排序），包含了 key（鍵）、value（值）、left（左邊的子節點）、right（右邊的子節點）、parent（父節點）、color（顏色）。

2）comparator 是紅黑樹的排序方式，是一個 Comparator 介面型別，該介面裡面有一個 compare 方法，有兩個引數 T o1 和 T o2，是泛型的表示方式，表示待比較的兩個物件，該方法的返回值是一個整形， o1大於o2，返回正整數； o1等於o2，返回0；o1小於o3，返回負整數。

總結一下就是，HashMap 適用於在 Map 中插入、刪除和定位元素；TreeMap 適用於按自然順序或自定義順序遍歷鍵（key）。

04、二哥，再講講二分查詢唄！

三妹，沒有任何問題，包在我身上。不過，在講之前，你能先去給哥泡杯咖啡嗎？

通常，我們從陣列中查詢一個元素時，需要對整個陣列進行遍歷。但如果這個陣列是排序過的，就可以進行二分查詢了。

二分查詢的方式：

第一步，將陣列中間位置上的元素與要查詢的物件進行比較，如果兩者相等，則查詢成功；否則進行第二步。

第二步，利用中間位置將陣列分割成前、後兩個子集。

第三步，比較要查詢的物件與中間位置上的元素，如果前者大於後者，則在後面的子集中按照之前的方式進行查詢；否則，在前面的子集中按照之前的方式進行查詢。

這樣做可以將查詢範圍縮減一半，大大的減少了查詢的次數。

Collections 類的 binarySearch() 方法實現了二分查詢這個演算法，可以直接使用，前提是先要排序，否則將返回 -2。原始碼如下。

private static <T>
int indexedBinarySearch(List<? extends Comparable<? super T>> list, T key) {
    int low = 0;
    int high = list.size()-1;

    while (low <= high) {
        int mid = (low + high) >>> 1;
        Comparable<? super T> midVal = list.get(mid);
        int cmp = midVal.compareTo(key);

        if (cmp < 0)
            low = mid + 1;
        else if (cmp > 0)
            high = mid - 1;
        else
            return mid; // key found
    }
    return -(low + 1);  // key not found
}

我們來測試一下。

List<String> list1 = new ArrayList<>();
list1.add("沉");
list1.add("默");
list1.add("王");
list1.add("二");

Collections.sort(list1); // 先要排序
System.out.println(Collections.binarySearch(list1, "王")); // 2

05、故事的未完待續

“二哥，終於講完《集合》了，喝口咖啡吧！”三妹的態度很體貼。

“謝謝。”

“二哥，如果這篇文章繼續遭受到批評，你會不會氣餒啊？”三妹眨了眨眼睛，繼續問我，我看到她長長的睫毛，真的很美。

“嗯，對於作者來說，當然希望文章能夠得到正面的反饋，如果是負面的反饋，那也在我的意料之中。”

“為啥？”三妹很好奇。

“《教妹學 Java》是一種創新的寫作手法，市面上還沒有，新鮮、有趣的事物總需要一段時間才能被大眾接受，否則也就不叫創新了。”

“二哥，為你的勇氣點贊！”看到三妹很為我驕傲的樣子，我的心裡盛開了一朵牡丹花。

教妹學 Java：晦澀難懂的泛型
2019-05-17
Java泛型
教妹學Java(十)：Unicode字符集簡介
2020-04-07
JavaUnicode
教妹學 Java：難以駕馭的多執行緒
2019-06-06
Java執行緒
教妹學Java(九)：一文搞懂Java中的基本資料型別
2020-04-07
Java資料型別
學IT，大有作為
2021-12-20
實景三維，大有可為
2024-04-01
做網站，還是大有可為！
2022-03-08
網站
給學妹的 Java 學習路線
2020-04-19
Java
我為什麼說AI推理晶片大有可為
2019-06-19
AI晶片
技術引路：機器學習仍大有可為，但方向在哪裡？
2019-05-28
機器學習
陳吉寧書記調研米哈遊：創新型企業大有可為、大有作為！
2023-01-31
教小師妹學多執行緒，一個有深度的例子！
2021-03-26
執行緒
CCAI 2020 | 周明：自然語言處理大有可為
2020-08-12
AI自然語言處理
小家電發展遭遇瓶頸未來仍大有可為
2018-03-20
Java集合框架學習
2019-02-18
Java框架
Java高校教務教學管理系統原始碼
2022-05-31
Java原始碼
中文出身的妹紙，零基礎學習JAVA靠譜麼?
2019-03-24
Java
Java 學習資料集合
2018-12-17
Java
JAVA學習知識集合
2019-02-15
Java
Java集合學習總結
2018-03-08
Java
Java 集合學習筆記
2021-02-21
Java筆記
Java中的Map集合學習筆記
2020-11-09
Java筆記
java學習(七) —— API集合類
2019-01-19
JavaAPI
Java集合類學習總結
2018-07-31
Java
Java集合學習記錄——Iterator
2019-02-01
Java
【Java學習筆記】Collections集合
2021-01-03
Java筆記
java 將物件集合轉為欄位值的 list
2024-06-18
Java物件
小巧玲瓏大有可為！H3C F100-C-A6-WL防火牆為安全賦能
2019-04-03
防火牆
發售首日即銷量百萬 “單人開發者+外包”的研發模式未來大有可為？
2024-05-11
模式
基於合作教學的幾種教學方法
2018-11-16
Java集合原始碼學習（4）HashSet
2018-10-23
Java原始碼
Java集合原始碼學習（5）HashMap
2018-10-24
Java原始碼HashMap
java集合學習（一）：詳解ArrayList
2018-12-14
Java
Java集合原始碼學習（2）ArrayList
2018-10-02
Java原始碼
Java集合原始碼學習（3）LinkedList
2018-10-02
Java原始碼
Java集合原始碼學習（1）介面
2018-09-27
Java原始碼
5個鮮為人知Java集合特性
2024-04-13
Java
關於Java的小知識集合之 ArrayList可變長陣列
2020-03-18
Java陣列