計算機程式的思維邏輯 (47) – 堆和PriorityQueue的應用

swiftma發表於2019-02-19

原文網址 : https://flycode.co/archives/283421

計算機

本系列文章經補充和完善，已修訂整理成書《Java程式設計的邏輯》（馬俊昌著），由機械工業出版社華章分社出版，於2018年1月上市熱銷，讀者好評如潮！各大網店和書店有售，歡迎購買：京東自營連結

45節介紹了堆的概念和演算法，上節介紹了Java中堆的實現類PriorityQueue，PriorityQueue除了用作優先順序佇列，還可以用來解決一些別的問題，45節提到了如下兩個應用：

求前K個最大的元素，元素個數不確定，資料量可能很大，甚至源源不斷到來，但需要知道到目前為止的最大的前K個元素。這個問題的變體有：求前K個最小的元素，求第K個最大的，求第K個最小的。
求中值元素，中值不是平均值，而是排序後中間那個元素的值，同樣，資料量可能很大，甚至源源不斷到來。

本節，我們就來探討如何解決這兩個問題。

求前K個最大的元素

基本思路

一個簡單的思路是排序，排序後取最大的K個就可以了，排序可以使用Arrays.sort()方法，效率為O(N*log2(N))。不過，如果K很小，比如是1，就是取最大值，對所有元素完全排序是毫無必要的。

另一個簡單的思路是選擇，迴圈選擇K次，每次從剩下的元素中選擇最大值，這個效率為O(N*K)，如果K的值大於log2(N)，這個就不如完全排序了。

不過，這兩個思路都假定所有元素都是已知的，而不是動態新增的。如果元素個數不確定，且源源不斷到來呢？

一個基本的思路是維護一個長度為K的陣列，最前面的K個元素就是目前最大的K個元素，以後每來一個新元素的時候，都先找陣列中的最小值，將新元素與最小值相比，如果小於最小值，則什麼都不用變，如果大於最小值，則將最小值替換為新元素。

這有點類似於生活中的末尾淘汰，新元素與原來最末尾的比即可，要麼不如最末尾，上不去，要麼替掉原來的末尾。

這樣，陣列中維護的永遠是最大的K個元素，而且不管源資料有多少，需要的記憶體開銷是固定的，就是長度為K的陣列。不過，每來一個元素，都需要找最小值，都需要進行K次比較，能不能減少比較次數呢？

解決方法是使用最小堆維護這K個元素，最小堆中，根即第一個元素永遠都是最小的，新來的元素與根比就可以了，如果小於根，則堆不需要變化，否則用新元素替換根，然後向下調整堆即可，調整的效率為O(log2(K))，這樣，總體的效率就是O(N*log2(K))，這個效率非常高，而且儲存成本也很低。

使用最小堆之後，第K個最大的元素也很容易獲得，它就是堆的根。

理解了思路，下面我們來看程式碼。

實現程式碼

我們來實現一個簡單的TopK類，程式碼如下所示：

public class TopK <E> {
    private PriorityQueue<E> p;
    private int k;
    
    public TopK(int k){
        this.k = k;
        this.p = new PriorityQueue<>(k);
    }

    public void addAll(Collection<? extends E> c){
        for(E e : c){
            add(e);
        }
    }
    
    public void add(E e) {
        if(p.size()<k){
            p.add(e);
            return;
        }
        
        Comparable<? super E> head = (Comparable<? super E>)p.peek();
        if(head.compareTo(e)>0){
            //小於TopK中的最小值，不用變
            return;
        }
        //新元素替換掉原來的最小值成為Top K之一。
        p.poll();
        p.add(e);
    }
    
    public <T> T[] toArray(T[] a){
        return p.toArray(a);
    }

    public E getKth(){
        return p.peek();
    }
}    
複製程式碼

我們稍微解釋一下。

TopK內部使用一個優先順序佇列和k，構造方法接受一個引數k，使用PriorityQueue的預設構造方法，假定元素實現了Comparable介面。

add方法，實現向其中動態新增元素，如果元素個數小於k直接新增，否則與最小值比較，只在大於最小值的情況下新增，新增前，先刪掉原來的最小值。addAll方法迴圈呼叫add方法。

toArray方法返回當前的最大的K個元素，getKth方法返回第K個最大的元素。

我們來看一下使用的例子：

TopK<Integer> top5 = new TopK<>(5);
top5.addAll(Arrays.asList(new Integer[]{
        100, 1, 2, 5, 6, 7, 34, 9, 3, 4, 5, 8, 23, 21, 90, 1, 0
}));

System.out.println(Arrays.toString(top5.toArray(new Integer[0])));
System.out.println(top5.getKth());
複製程式碼

保留5個最大的元素，輸出為：

[21, 23, 34, 100, 90]
21
複製程式碼

程式碼比較簡單，就不解釋了。

求中值

基本思路

中值就排序後中間那個元素的值，如果元素個數為奇數，中值是沒有歧義的，但如果是偶數，中值可能有不同的定義，可以為偏小的那個，也可以是偏大的那個，或者兩者的平均值，或者任意一個，這裡，我們假定任意一個都可以。

一個簡單的思路是排序，排序後取中間那個值就可以了，排序可以使用Arrays.sort()方法，效率為O(N*log2(N))。

不過，這要求所有元素都是已知的，而不是動態新增的。如果元素源源不斷到來，如何實時得到當前已經輸入的元素序列的中位數？

可以使用兩個堆，一個最大堆，一個最小堆，思路如下：

假設當前的中位數為m，最大堆維護的是<=m的元素，最小堆維護的是>=m的元素，但兩個堆都不包含m。
當新的元素到達時，比如為e，將e與m進行比較，若e<=m，則將其加入到最大堆中，否則將其加入到最小堆中。
第二步後，如果此時最小堆和最大堆的元素個數的差值>=2 ，則將m加入到元素個數少的堆中，然後從元素個數多的堆將根節點移除並賦值給m。

我們通過一個例子來解釋下，比如輸入元素依次為：

34, 90, 67, 45,1
複製程式碼

輸入第一個元素時，m即為34。

輸入第二個元素時，90大於34，加入最小堆，中值不變，如下所示：

輸入第三個元素時，67大於34，加入最小堆，但加入最小堆後，最小堆的元素個數為2，需調整中值和堆，現有中值34加入到最大堆中，最小堆的根67從最小堆中刪除並賦值給m，如下圖所示：

輸入第四個元素45時，45小於67，加入最大堆，中值不變，如下圖所示：

輸入第五個元素1時，1小於67，加入最大堆，此時需調整中值和堆，現有中值67加入到最小堆中，最大堆的根45從最大堆中刪除並賦值給m，如下圖所示：

實現程式碼

理解了基本思路，我們來實現一個簡單的中值類Median，程式碼如下所示：

public class Median <E> {
    private PriorityQueue<E> minP; // 最小堆
    private PriorityQueue<E> maxP; //最大堆
    private E m; //當前中值
    
    public Median(){
        this.minP = new PriorityQueue<>();
        this.maxP = new PriorityQueue<>(11, Collections.reverseOrder());
    }
    
    private int compare(E e, E m){
        Comparable<? super E> cmpr = (Comparable<? super E>)e;
        return cmpr.compareTo(m);
    }
    
    public void add(E e){
        if(m==null){ //第一個元素
            m = e;
            return;
        }
        if(compare(e, m)<=0){
            //小於中值, 加入最大堆
            maxP.add(e);
        }else{
            minP.add(e);
        }
        if(minP.size()-maxP.size()>=2){
            //最小堆元素個數多，即大於中值的數多
            //將m加入到最大堆中，然後將最小堆中的根移除賦給m
            maxP.add(this.m);
            this.m = minP.poll();
        }else if(maxP.size()-minP.size()>=2){
            minP.add(this.m);
            this.m = maxP.poll();
        }
    }
    
    public void addAll(Collection<? extends E> c){
        for(E e : c){
            add(e);
        }
    }
    
    public E getM() {
        return m;
    }
}
複製程式碼

程式碼和思路基本是對應的，比較簡單，就不解釋了。我們來看一個使用的例子：

Median<Integer> median = new Median<>();
List<Integer> list = Arrays.asList(new Integer[]{
        34, 90, 67, 45, 1, 4, 5, 6, 7, 9, 10
});
median.addAll(list);
System.out.println(median.getM());
複製程式碼

輸出為中值9。

小結

本節介紹了堆和PriorityQueue的兩個應用，求前K個最大的元素和求中值，介紹了基本思路和實現程式碼，相比使用排序，使用堆不僅實現效率更高，而且還可以應對資料量不確定且源源不斷到來的情況，可以給出實時結果。

到目前為止，我們介紹了佇列的兩個實現，LinkedList和PriortiyQueue，Java容器類中還有一個佇列的實現類ArrayDeque，它是基於陣列實現的，我們知道，一般而言，因為需要移動元素，陣列的插入和刪除效率比較低，但ArrayDeque的效率卻很高，甚至高於LinkedList，它是怎麼實現的呢？讓我們下節來探討。

未完待續，檢視最新文章，敬請關注微信公眾號“老馬說程式設計”(掃描下方二維碼)，深入淺出，老馬和你一起探索Java程式設計及計算機技術的本質。用心原創，保留所有版權。

計算機程式的思維邏輯 (84) – 反射
2019-03-01
計算機反射
計算機程式的思維邏輯 (34) – 隨機
2019-03-01
計算機隨機
計算機程式的思維邏輯 (50) – 剖析EnumMap
2019-03-01
計算機
計算機程式的思維邏輯 (41) – 剖析HashSet
2019-03-03
計算機
計算機程式的思維邏輯 (29) – 剖析String
2019-02-25
計算機
計算機程式的思維邏輯 (30) – 剖析StringBuilder
2019-02-25
計算機UI
計算機程式的思維邏輯 (82) – 理解ThreadLocal
2019-02-28
計算機thread
計算機程式的思維邏輯 (43) – 剖析TreeMap
2019-03-04
計算機
計算機程式的思維邏輯 (44) – 剖析TreeSet
2019-02-19
計算機
計算機程式的思維邏輯 (70) – 原子變數和CAS
2019-03-04
計算機變數
計算機程式的思維邏輯 (71) – 顯式鎖
2019-02-25
計算機
計算機程式的思維邏輯 (56) – 檔案概述
2019-02-18
計算機
計算機程式的思維邏輯 (14) – 類的組合
2019-03-03
計算機
計算機程式的思維邏輯 (83) – 併發總結
2019-03-03
計算機
計算機程式的思維邏輯 (72) – 顯式條件
2019-02-25
計算機
計算機程式的思維邏輯 (55) – 容器類總結
2019-03-02
計算機
計算機程式的思維邏輯 (23) – 列舉的本質
2019-02-28
計算機
計算機程式的思維邏輯 (15) – 初識繼承和多型
2019-03-03
計算機繼承多型
計算機程式的思維邏輯 (94) – 組合式非同步程式設計
2019-02-27
計算機非同步程式設計
計算機程式的思維邏輯 (88) – 正規表示式 (上)
2019-03-02
計算機
計算機程式的思維邏輯 (63) – 實用序列化: JSON/XML/MessagePack
2019-02-22
計算機JSONXML
計算機程式的思維邏輯 (20) – 為什麼要有抽象類？
2019-03-02
計算機抽象
計算機程式的思維邏輯 (12) – 函式呼叫的基本原理
2019-03-04
計算機函式
計算機程式的思維邏輯 (68) – 執行緒的基本協作機制 (下)
2019-03-04
計算機執行緒
計算機程式的思維邏輯 (93) – 函式式資料處理 (下)
2019-01-20
計算機函式
堆在java中的應用--PriorityQueue
2021-09-09
Java
計算機程式的思維邏輯 (18) – 為什麼說繼承是把雙刃劍
2019-03-04
計算機繼承
程式設計師，你的邏輯思維有多強？
2021-11-25
程式設計師
計算機程式的思維邏輯 (28) – 剖析包裝類 (下) – 理解Java Unicode處理的基礎
2019-01-03
計算機JavaUnicode
計算機程式的思維邏輯 (61) – 記憶體對映檔案及其應用 – 實現一個簡單的訊息佇列
2019-02-25
計算機記憶體佇列
資料分析應學習邏輯思維和分析方法
2022-07-25
軍事思維者的思考邏輯
2018-05-31
如何建立強大的邏輯思維能力？
2022-12-30
資料分析應有的邏輯思維及分析方法
2020-12-17
做一個有產品思維的研發：邏輯設計
2019-04-19
提升思維邏輯—SimpleMind Pro（思維導圖） for Mac/win
2024-01-09
Mac
計算機程式的思維邏輯 (64) – 常見檔案型別處理: 屬性檔案/CSV/EXCEL/HTML/壓縮檔案
2019-01-02
計算機型別ExcelHTML
利用 Python 引導孩子的計算機思維
2019-07-17
Python計算機

計算機程式的思維邏輯 (47) – 堆和PriorityQueue的應用

求前K個最大的元素

基本思路

實現程式碼

求中值

基本思路

實現程式碼

小結

相關文章