常見的集合容器應當避免的坑

crossoverJie發表於2019-07-04

原文網址 : https://juejin.im/post/5d1ced1bf265da1b74021984

常見的集合容器應當避免的坑

前言

前不久幫同事一起 review 一個 job 執行緩慢的問題時發現不少朋友在擼碼實現功能時還是有需要細節不夠注意，於是便有了這篇文章。

ArrayList 踩坑

List<String> temp = new ArrayList() ;

//獲取一批資料
List<String> all = getData();
for(String str : all) {
    temp.add(str);
}

首先大家看看這段程式碼有什麼問題嘛？

其實在大部分情況下這都是沒啥問題，無非就是迴圈的往 ArrayList 中寫入資料而已。

但在特殊情況下，比如這裡的 getData() 返回資料非常巨大時後續 temp.add(str) 就會有問題了。

比如我們在 review 程式碼時發現這裡返回的資料有時會高達 2000W，這時 ArrayList 寫入的問題就凸顯出來了。

填坑指南

大家都知道 ArrayList 是由陣列實現，而資料的長度有限；需要在合適的時機對陣列擴容。

這裡以插入到尾部為例 add(E e)。

常見的集合容器應當避免的坑

ArrayList<String> temp = new ArrayList<>(2) ;
temp.add("1");
temp.add("2");
temp.add("3");

當我們初始化一個長度為 2 的 ArrayList ，並往裡邊寫入三條資料時 ArrayList 就得擴容了，也就是將之前的資料複製一份到新的陣列長度為 3 的陣列中。

常見的集合容器應當避免的坑

之所以是 3 ，是因為新的長度=原有長度 * 1.5

通過原始碼我們可以得知 ArrayList 的預設長度為 10.

常見的集合容器應當避免的坑

但其實並不是在初始化的時候就建立了 DEFAULT_CAPACITY = 10 的陣列。

常見的集合容器應當避免的坑

而是在往裡邊 add 第一個資料的時候會擴容到 10.

既然知道了預設的長度為 10 ，那說明後續一旦寫入到第九個元素的時候就會擴容為 10*1.5 =15。
這一步為陣列複製，也就是要重新開闢一塊新的記憶體空間存放這 15 個陣列。

一旦我們頻繁且數量巨大的進行寫入時就會導致許多的陣列複製，這個效率是極低的。

但如果我們提前預知了可能會寫入多少條資料時就可以提前避免這個問題。

比如我們往裡邊寫入 1000W 條資料，在初始化的時候就給定陣列長度與用預設 10 的長度之間效能是差距巨大的。

我用 JMH 基準測試驗證如下：

@Warmup(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
@Measurement(iterations = 5, time = 1, timeUnit = TimeUnit.SECONDS)
public class CollectionsTest {

    private static final int TEN_MILLION = 10000000;

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayList() {

        List<String> array = new ArrayList<>();

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void arrayListSize() {
        List<String> array = new ArrayList<>(TEN_MILLION);

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }


    public static void main(String[] args) throws RunnerException {
        Options opt = new OptionsBuilder()
                .include(CollectionsTest.class.getSimpleName())
                .forks(1)
                .build();


        new Runner(opt).run();
    }
}

常見的集合容器應當避免的坑

根據結果可以看出預設長度的效率會比用預設的效率高上很多（這裡的 Score 指執行完函式所消耗的時間）。

所以這裡強烈建議大家：在有大量資料寫入 ArrayList 時，一定要初始化指定長度。

再一個是一定要慎用 add(int index, E element) 向指定位置寫入資料。

常見的集合容器應當避免的坑

通過原始碼我們可以看出，每一次寫入都會將 index 後的資料往後移動一遍，其實本質也是要複製陣列；

但區別於往常規的往陣列尾部寫入資料，它每次都會進行陣列複製，效率極低。

LinkedList

提到 ArrayList 就不得不聊下 LinkedList 這個孿生兄弟；雖說都是 List 的容器，但本質實現卻完全不同。

常見的集合容器應當避免的坑

LinkedList 是由連結串列組成，每個節點又有頭尾兩個節點分別引用了前後兩個節點；因此它也是一個雙向連結串列。

所以理論上來說它的寫入非常高效，將不會有 ArrayList 中效率極低的陣列複製，每次只需要移動指標即可。

這裡偷懶就不畫圖了，大家自行腦補下。

對比測試

坊間一直流傳：

LinkedList 的寫入效率高於 ArrayList，所以在寫大於讀的時候非常適用於 LinkedList 。

    @Benchmark
    @BenchmarkMode(Mode.AverageTime)
    @OutputTimeUnit(TimeUnit.MICROSECONDS)
    public void linkedList() {
        List<String> array = new LinkedList<>();

        for (int i = 0; i < TEN_MILLION; i++) {
            array.add("123");
        }

    }

常見的集合容器應當避免的坑

這裡測試看下結論是否符合；同樣的也是對 LinkedList 寫入 1000W 次資料，通過結果來看初始化陣列長度的 ArrayList 效率明顯是要高於 LinkedList 。

但這裡的前提是要提前預設 ArrayList 的陣列長度，避免陣列擴容，這樣 ArrayList 的寫入效率是非常高的，而 LinkedList 的雖然不需要複製記憶體，但卻需要建立物件，變換指標等操作。

而查詢就不用多說了，ArrayList 可以支援下標隨機訪問，效率非常高。

LinkedList 由於底層不是陣列，不支援通過下標訪問，而是需要根據查詢 index 所在的位置來判斷是從頭還是從尾進行遍歷。

常見的集合容器應當避免的坑

但不管是哪種都得需要移動指標來一個個遍歷，特別是 index 靠近中間位置時將會非常慢。

總結

高效能應用都是從小細節一點點堆砌起來的，就如這裡提到的 ArrayList 的坑一樣，日常使用沒啥大問題，一旦資料量起來所有的小問題都會成為大問題。

所以再總結下：

再使用 ArrayList 時如果能提前預測到資料量大小，比較大時一定要指定其長度。
儘可能避免使用 add(index,e) api，會導致複製陣列，降低效率。
再額外提一點，我們常用的另一個 Map 容器 HashMap 也是推薦要初始化長度從而避免擴容。

本文所有測試程式碼：

https://github.com/crossoverJie/JCSprout/blob/master/src/main/java/com/crossoverjie/basic/CollectionsTest.java

你的點贊與分享是對我最大的支援

集合常見的面試題
2024-03-08
面試題
java集合中的常見考點
2019-03-02
Java
Docker容器中應避免的那些事兒
2020-06-26
Docker
4個需要避免的常見Kubernetes監控陷阱
2018-12-18
iOS 避免常見崩潰（二）
2019-03-28
iOS
iOS 避免常見崩潰（一）
2019-02-28
iOS
Java之常見異常整理集合
2018-08-24
Java
涵蓋表內欄位設計以及應該避免的常見問題等
2022-03-09
說說你對集合的理解？常見的操作有哪些？
2024-04-16
JavaScript常見演算法集合
2020-02-04
JavaScript演算法
常見的API錯誤以及如何避免它們 - LogRocket Blog
2019-09-11
API
【Java】【集合】collection介面常見方法、集合轉陣列toArray()、帶ALL的方法
2018-04-23
Java陣列
雲中的資料管理，這七個常見陷阱要避免
2018-05-23
高階資料分析流程要避免的常見錯誤KG
2022-03-21
JAVA集合：常見Set原始碼學習
2019-03-01
Java原始碼
Golang 需要避免踩的 50 個坑
2019-04-10
Golang
集合容器
2018-09-11
mysql常見的查詢語句的應用
2020-12-17
MySql
Java常見知識點彙總（⑦）——集合框架
2020-03-02
Java框架
遊戲常見功能程式碼集合c#
2018-04-13
遊戲C#
簡單介紹Go 語言常見的一些坑
2021-11-07
Go
MySQL鎖：InnoDB行鎖需要避免的坑
2020-04-17
MySql
JavaScript中的bind方法及其常見應用
2018-03-10
JavaScript
常見的並聯諧振應用案例
2024-01-26
流的基本概念以及常見應用
2022-06-16
【收藏】常見的網路安全應急響應工具合集！
2022-03-24
WSL2以及容器的坑
2024-03-04
WPS漏洞利用工具Bully常見命令集合
2021-07-11
C++中使用sort對常見容器排序
2021-05-20
C++排序
小程式開發常見踩坑系列(下)
2020-07-26
微信分享常見問題--避坑指北
2021-07-28
Containerd 的 Bug 導致容器被重建！如何避免？
2023-02-07
AI
幾種常見的DDOS攻擊應對策略
2020-06-03
django | 常見 SQL 及其對應的 ORM 寫法
2024-06-28
DjangoSQLORM
對web應用程式安全的常見誤解
2022-09-26
Web
Python 中的這些坑，早看早避免
2018-11-30
Python
新手活動運營要避免的12坑
2018-12-11
避免踩坑的外貿知識點奉上~
2023-05-19

常見的集合容器應當避免的坑

前言

ArrayList 踩坑

填坑指南

LinkedList

對比測試

總結

相關文章