堆排序原理及其應用場景

公眾號程式設計師學長發表於2021-07-27

原文網址 : https://www.cnblogs.com/laohanshuibi/p/15064085.html

排序

堆這種資料結構應用場景很多，最經典的莫過於堆排序。堆排序是一種原地的、時間複雜度為O(nlogn)的排序演算法。我們今天就來分析一下堆這種資料結構。

一、什麼是堆

堆是一種特殊的樹。只要滿足以下兩點，就稱為堆。

堆是一個完全二叉樹。
堆的每一個節點的值都必須大於等於（或小於等於）其子樹中每個節點的值。

對於每個節點的值都大於等於其子樹中每個節點的值的堆，我們叫做“大頂堆”。對於每個節點的值都小於等於其子樹中每個節點的值的堆，我們叫做“小頂堆”。

二、如何實現一個堆

首先我們需要知道堆都支援哪些操作以及如何儲存一個堆。

對於一個完全二叉樹來說，用陣列來儲存是非常節省儲存空間的。因為我們不需要儲存指向左右子節點的指標，單純的通過陣列下標就可以找到一個節點的左右子節點和父節點。如下圖所示。

如圖所示，陣列中下標為i的節點，它的左子節點的下標為2i，它的右子節點下標為2i+1，它的父節點的下標為i/2。下面我們再來看一下堆上有哪些常用的操作。我們以大頂堆為例，來看一下堆的插入操作和刪除操作。

1.往堆中插入元素

往堆中插入一個新的元素後，我們需要繼續滿足堆的兩個特性。

如果我們把新插入的元素放到堆的最後，是不符合堆的特性的，所以我們需要調整，以保證其滿足堆的特性。調整分為向上調整和向下調整。我們先以向上調整為例。如下圖所示。

這個過程很簡單，我們讓新插入的節點和其父節點對比大小。如果不滿足子節點小於等於父節點，我們就互換兩個節點。一直重複這個過程，直到滿足要求。

2.刪除堆頂元素

接下來我們來看一下刪除操作。我們首先把堆的最後一個元素和堆頂元素互換位置，然後刪除最後一個元素。剩下的堆元素是不滿足堆的要求的，我們需要從堆頂開始從上往下調整，直到父子節點滿足大小關係為止。如下圖所示。

我們知道一個包含n個節點的完全二叉樹，樹的高度不會超過log2n，堆調整的過程是順著節點所在的路徑進行比較交換，所以時間複雜度是和堆的高度成正比的，也就是O(logN)。插入資料和刪除堆頂資料的主要邏輯就是堆的調整，所以往堆裡插入一個元素和刪除堆頂元素的時間複雜度是O(logN)。

三、堆排序

我們上次講了很多的排序方法，可以點選排序演算法去檢視。今天我們繼續講一種新的排序演算法-堆排序，它的時間複雜度是O(nlogN)，並且是原地排序演算法。我們可以把堆排序的過程大致分為兩大步驟，分別是建堆和排序。

1.建堆

我們首先將陣列原地建一個堆。“原地”的含義就是不借助另一個陣列，就在原陣列上操作。我們的實現思路是從後往前處理資料，並且每個資料都是從上向下調整。

我們看一下下面的建堆分解步驟圖。由於葉子節點向下調整隻能自己跟自己比較，所以我們直接從最後一個非葉子節點開始，依次向下調整就好了。

如圖所示，我們對下標從n/2開始一直到1的資料進行向下調整，下標是n/2+1到n的節點是葉子節點，所以我們不需要調整。\

2.排序

建堆結束後，陣列中的資料已經按照大頂堆的特性進行組織了。陣列中的第一個元素就是堆頂，也就是最大的元素。我們把它和最後一個元素交換，那最大的元素就放到了下標為n的位置。

這個過程類似於刪除堆頂操作，當堆頂元素移除以後，我們把下標為n的元素放到堆頂，然後再進行向下調整，將剩下的n-1個元素重新構建成堆。調整完成之後，我們再取堆頂元素，放到下標為n-1的位置，一直重複這個過程，直到堆中最後只剩下下標為1的一個元素，排序工作就完成了。

現在我們來分析一下堆排序的時間複雜度、空間複雜度以及穩定性。整個堆排序的過程中，只需要個別的臨時儲存空間，所以堆排序是原地排序演算法。堆排序包括建堆和排序兩個操作，建堆的時間複雜度是O(n)，排序過程時間複雜度是O(nlogN)。所以，堆排序的整個時間複雜度是O(nlogN)。因為在排序的過程中，存在將堆的最後一個節點跟堆頂互換的操作，所以有可能會改變值相同資料的原始相對順序，所以堆排序不是穩定的排序演算法。

四、堆的應用

下面我們來說一下堆的幾個非常重要的應用。

1.優先順序佇列

優先順序佇列，顧名思義，它首先是一個佇列。佇列的最大特性就是先進先出。但是，在優先順序佇列中，出隊的順序不是按照先進先出，而是按照優先順序來，優先順序高的先出隊。

如何實現一個優先順序佇列呢？其實有很多方法，不過使用堆來實現是最直接、最高效的。因為堆和優先順序佇列非常相似。一個堆就可以看做是一個優先順序佇列。往優先順序佇列中插入一個元素，就相當於往堆中插入一個元素；從優先順序佇列中取出最高優先順序的元素，就相當於取出堆頂元素。我們來看一下下面這樣一個應用場景。

假如我們有100個小檔案，每個檔案的大小是100MB。每個檔案中儲存的都是有序的字串。我們希望將這些小檔案合併成一個有序大檔案。這裡就會用到優先順序佇列。我們將從100個小檔案中，各取出一個字串，然後我們建立小頂堆，那堆頂的元素，也就是優先順序佇列的隊首元素，也就是最小的字串。我們將這個字串放到大檔案中，並將其從堆中刪除。然後再從小檔案中取出下一個字串放入堆中。迴圈此過程，就可以將100個小檔案的資料依次放入到大檔案中。

2.利用堆求topK

我們可以把求topk的問題抽象成2類。一類是針對靜態資料集合，也就是說資料集合事先確定，不會再變。另一類是針對動態資料集合，也就是說資料集合事先不確定，有資料動態地加入到集合中。針對靜態資料集合，如何在包含n個資料的陣列中，查詢前K大資料呢?我們可以維護一個大小為k的小頂堆，順序遍歷陣列，從陣列中取出資料和堆頂元素比較。如果比堆頂元素大，我們就把堆頂元素刪除，並且將這個元素插入到堆中；如果比堆頂元素小，我們就不做處理，繼續遍歷陣列。這樣等陣列中的資料都遍歷完成之後，堆中的資料就是前K大資料了。針對動態資料求得topK，也就是實時topK。怎麼理解呢？我舉個例子。一個資料集合中有兩個操作，一個是新增資料，另一個就是詢問當前的前K大資料。如果每次詢問前k大資料時，我們都基於當前的資料重新計算的話，那時間複雜度就是O(nlogN)，n表示當前資料的大小。實際上我們可以一直維護一個k大小的小頂堆，當有資料要新增到集合中時，我們就拿它與堆頂元素做對比。如果比堆頂元素大，我們把堆頂元素刪除，並將這個元素插入到堆中；如果比堆頂元素小，我們則不做處理。這樣，不論何時需要查詢前K大資料，我們都可以立刻返回給它。

更多硬核知識，請關注公眾號“程式設計師學長”。

閉包及其應用場景
2018-08-27
ios runtime之Method Swizzling及其應用場景
2019-04-19
iOS
ZooKeeper核心原理及應用場景
2020-06-09
React 中的高階元件及其應用場景
2019-02-25
React元件
Flink基本原理與應用場景
2019-04-11
Zookeeper基礎原理&應用場景詳解
2021-04-21
Tornado原理淺析及應用場景探討
2019-04-10
Hive簡介、應用場景及架構原理
2018-08-20
Hive架構
海外IP池的工作原理及應用場景
2023-05-15
淺談webscoket原理及其應用
2019-12-03
Web
淺析RunLoop原理及其應用
2020-04-06
OOP
全雙工與半雙工技術解析及其應用場景
2024-05-11
Java反射詳解：入門+使用+原理+應用場景
2022-01-14
Java反射
動態代理的原理及其應用
2018-08-07
3.4　應用場景
2018-08-25
DDD應用場景
2024-04-27
ES 應用場景
2020-06-30
snapshot應用場景
2024-11-17
Zookeeper應用場景
2021-08-31
IO多路複用原理&場景
2022-02-04
RabbitMQ 的應用場景以及基本原理介紹
2019-04-13
MQ
RabbitMQ的應用場景以及基本原理介紹
2020-07-03
MQ
Mybatis-Plus的應用場景及注入SQL原理分析
2021-05-25
MyBatisSQL
Java 讀寫鎖 ReadWriteLock 原理與應用場景詳解
2022-09-30
Java
Kubernetes的優勢、適應場景及其特點
2024-03-09
設計模式學習筆記（十七）中介者模式及其應用場景
2022-04-07
設計模式筆記
JavaScript 工作原理之六－WebAssembly 對比 JavaScript 及其使用場景
2018-05-15
JavaScriptWeb
Numpy的應用場景
2023-11-27
openGauss MOT應用場景
2024-04-29
openGauss-應用場景
2024-08-30
Nginx應用場景配置
2021-12-27
Nginx
FRAM的應用場景
2021-05-12
JAVA集合框架中的常用集合及其特點、適用場景、實現原理簡介
2021-09-09
Java框架
HDFS應用場景、原理、基本架構及使用方法概述
2018-10-23
架構
SAP BTP MTA 應用的應用場景
2022-03-25
[譯]淺析t-SNE原理及其應用
2020-02-21
【分散式】Zookeeper應用場景
2019-01-22
分散式
zookeeper使用（四）--應用場景
2018-12-12