Java中使用HashMap時指定初始化容量效能一定會更好嗎?

xindoo發表於2023-02-06

  一些Java程式設計老手在做CodeReview時,都會告訴其他人,使用HashMap時建議指定容量大小,原因是指定容量後,程式碼效能會更好一些。後來隨著阿里Java開發手冊在業內廣為傳播,這一點早已深入人心,我自己也早已習慣在使用HashMap時指定容量大小。但我今天突發奇想,想知道指定容量和不指定容量時效能究竟有多少的差異,測試部分測試資料的結果讓我大跌眼睛,有些情況下指定容量的效能還比不指定容量時差!! ,但其他部分還是很符合我之前的認知的。

   先說下我的測試平臺和測試方法,我使用了openjdk17和jmh單執行緒測試,測試程式碼如下:

    @Benchmark
    @BenchmarkMode(Mode.Throughput)
    @Measurement(iterations = 2, time = 5)
    @Threads(1)
    @Fork(0)
    @Warmup(iterations = 1, time = 5)
    public void withoutCap() {
        Map<Integer, Integer> map = new HashMap<>();
        for (int i = 0; i < CAP; i++) {
            map.put(random.nextInt(), 1);
        }
    }

    @Benchmark
    @BenchmarkMode(Mode.Throughput)
    @Measurement(iterations = 2, time = 5)
    @Threads(1)
    @Fork(0)
    @Warmup(iterations = 1, time = 5)
    public void withCap() {
        Map<Integer, Integer> map = new HashMap<>(CAP);
        for (int i = 0; i < CAP; i++) {
            map.put(random.nextInt(), 1);
        }
    }

  這裡為了避免Java中小資料快取,我特意使用了隨機數作為KEY,而VALUE一視同仁都使用了1。兩個方法就是新建一個HashMap並不斷往map裡put資料,唯一差異就是一個指定了CAP引數。 在我設定了不同引數後,得到了以下資料(越高越好):

資料量不指定容量(ops/s)指定容量(ops/s)
25109543324000032
42516175611813275
8107671765900641
1629783742987958
3212316371545394
64567643764260
256129350185540
10242747535799
10252719568466
409666819937
327688071177
65536377567

  可以看出,容量16是個分水嶺,當容量為16時,二者幾乎沒啥差異,這也很容易理解,當不指定容量時預設初始容量就是16。但容量大於16時,指定容量時的效能會高於不指定時的效能,隨著數量的增加,前者會比後者效能高出50%。但當資料量小於16時,不指定容量大小反而效能更高,最多甚至相差2倍,這就和我們之前的認知不一樣了。
  上面資料中還有個很奇怪的點,那就是當資料量為1025時,效能居然還高於1024,而且差異巨大。就好比別人比你多幹了1份活,但用的時間比你少一半。我跑了多次都是這個結果,這不是測試誤差,這個結果和計算機底層儲存實現有關,具體原理可以參考問題 為什麼轉置512x512的矩陣比轉置513x513的矩陣慢?

備註:以上資料經過多次執行測試,資料雖有波動,但資料波動基本都在3%以內。

   那為什麼在大資料量的情況下,指定容量的程式碼效能會更好呢?這就得說到HashMap的實現原理,更詳細內容可以參考我之前寫的HashMap原始碼淺析。這裡為了方便大家直觀地理解效能差異產生的原因,我們用牧場養羊類比下。 假設你要開始養羊,你得現有場地吧,假設你先找了塊小場地,但隨著你的羊群發展壯大,場地不夠用了,你就得搬到一個更大的新場地,如果發展速度特別快,你就得頻繁搬家,搬家就逐漸變成了負擔。但如果你一開始就知道你最多能養多少的羊,直接找個足夠大的場地,不就能省去一直搬家的成本了嗎!
  這裡你把羊類比成資料,場地類比為記憶體,在HashMap中,如果開始不指定容量大小,JVM預設會給你一個非常小的(16)的容量空間,如果之後資料量變多,就需要重新申請更大的空間,並把資料遷移到新空間上,於是額外增加了時間消耗。這便是效能差異產生的原因。

   但當容量小於16時,指定容量的方式反而效能更差。這個我之前從未看過其他資料有說過,我簡單談下自己的分析和理解。 當呼叫new HashMap()和new HashMap(CAP)時,分別執行了不同的建構函式,而二者的建構函式的邏輯是有差異的,當指定容量時,執行了容量引數檢查的程式碼:

    public HashMap(int initialCapacity, float loadFactor) {
        if (initialCapacity < 0)
            throw new IllegalArgumentException("Illegal initial capacity: " +
                                               initialCapacity);
        if (initialCapacity > MAXIMUM_CAPACITY)
            initialCapacity = MAXIMUM_CAPACITY;
        if (loadFactor <= 0 || Float.isNaN(loadFactor))
            throw new IllegalArgumentException("Illegal load factor: " +
                                               loadFactor);
        this.loadFactor = loadFactor;
        this.threshold = tableSizeFor(initialCapacity);
    }
    static final int tableSizeFor(int cap) {
        int n = -1 >>> Integer.numberOfLeadingZeros(cap - 1);
        return (n < 0) ? 1 : (n >= MAXIMUM_CAPACITY) ? MAXIMUM_CAPACITY : n + 1;
    }

   不指定容量時,構造方法內只有一行this.loadFactor = DEFAULT_LOAD_FACTOR;,在put的資料量一致時,後續所有的程式碼執行流程都是一致的,所以指定容量時,上面容量引數檢查的程式碼帶來了額外的效能負擔,所以導致資料量較小時指定容量時反而效能更差一些。

  最後回到文章標題上來,Java中使用HashMap時指定初始化容量效能一定會更好嘛?答案是不一定,指定容量也有可能效能會更差。當然,絕大多數情況下還是建議指定容量的,類似的還有ArrayList,也建議指定容量。 別人給出的結論不一定的完全正確的,只有知道產生結論的原因,才能更有效的利用這個結論。

相關文章