優先佇列
許多應用程式都需要處理有序的元素,但不一定要求它們全部有序,或是不一定要一次就將它們排序。很多情況下是收集一些元素,處理當前鍵值最大的元素,然後再收集更多的元素,再處理當前鍵值最大的元素。這種情況下,需要的資料結構支援兩種操作:刪除最大的元素和插入元素。這種資料結構型別叫優先佇列。
這裡,優先佇列基於二叉堆資料結構實現,用陣列儲存元素並按照一定條件排序,以實現對數級別的刪除和插入操作。
1.API
優先佇列是一種抽象資料型別,它表示了一組值和對這些值的操作,抽象層使應用和實現隔離開來。
2.初級實現
1.無序陣列實現
優先佇列的 insert 方法和下壓棧的 push 方法一樣。刪除最大元素時,遍歷陣列找出最大元素,和邊界元素交換。
2.有序陣列實現
插入元素時,將較大的元素向右移一格(和插入排序一樣)。這樣刪除時,就可以直接 pop。
使用連結也是一樣的邏輯。
這些實現總有一種操作需要線性級別的時間複雜度。使用二叉堆可以保證操作在對數級別的時間完成。
3.堆的定義
資料結構二叉堆可以很好地實現優先佇列地基本操作。在二叉堆陣列中,每個元素都要保證大於等於另兩個特定位置地元素。同樣,這兩個位置地元素又至少要大於等於陣列中另外兩個元素,以此類推。用二叉樹表示:
當一棵二叉樹的每個結點都大於等於它的兩個子節點時,它被成為堆有序。從任意結點向上,都能得到一列非遞減的元素;從任意結點向下,都能得到一列非遞增的元素。根結點是堆有序的二叉樹中最大的結點。
二叉堆表示法
這裡使用完全二叉樹表示:將二叉樹的結點按照層級順序(從上到下,從左往右)放入陣列中,不使用陣列的第一個位置(為了方便計算),根結點在位置 1 ,它的子結點在位置 2 和 3,子結點的子結點分別在位置 4,5,6,7,一次類推。
在一個二叉堆中,位置 k 的結點的父節點位置在 k/2,而它的兩個子結點在 2k 和 2k + 1。可以通過計算陣列的索引而不是指標就可以在樹中上下移動。
一棵大小為 N 的完全二叉樹的高度為 lgN。
4.堆的演算法
用長度為 N+1 的私有陣列 pq[ ] 表示一個大小為 N 的堆。
堆在進行插入或刪除操作時,會打破堆的狀態,需要遍歷堆並按照要求將堆的狀態恢復。這個過程稱為 堆的有序化。
堆的有序化分為兩種情況:當某個結點的優先順序上升(或在堆底加入一個新的元素)時,需要由下至上恢復堆的順序;當某個結點的優先順序下降(例如將根節點替換為一個較小的元素),需要由上至下恢復堆的順序。
上浮(由下至上的堆的有序化)
當某個結點比它的父結點更大時,交換它和它的父節點,這個結點交換到它父節點的位置。但有可能比它現在的父節點大,需要繼續上浮,直到遇到比它大的父節點。(這裡不需要比較這個子結點和同級的另一個子結點,因為另一個子結點比它們的父結點小)
//上浮 private void Swim(int n) { while (n > 1 && Less(n / 2, n)) { Exch(n/2,n); n = n / 2; } }
下沉(由上至下的堆的有序化)
當某個結點 k 變得比它的兩個子結點(2k 和 2k+1)更小時,可以通過將它和它的兩個子結點較大者交換來恢復堆有序。交換後在子結點處可能繼續打破堆有序,需要繼續重複下沉,直到它的子結點都比它小或到達底部。
//下沉 private void Sink(int k) { while (2 * k <= N) { int j = 2 * k; //取最大的子節點 if (j < N && Less(j, j + 1)) j++; //如果父節點不小子節點,退出迴圈 if (!Less(k,j)) break; //否則交換,繼續下沉 Exch(j,k); k = j; } }
知道了上浮和下沉的邏輯,就可以很好理解在二叉堆中插入和刪除元素的邏輯。
插入元素:將新元素加到陣列末尾,增加堆的大小並讓這個新元素上浮到合適的位置。
刪除最大元素:從陣列頂端(即 pq[1])刪除最大元素,並將陣列最後一個元素放到頂端,減少陣列大小並讓這個元素下沉到合適位置。
public class MaxPriorityQueue { private IComparable[] pq; public int N; public MaxPriorityQueue(int maxN) { pq = new IComparable[maxN+1]; } public bool IsEmpty() { return N == 0; } public void Insert(IComparable value) { pq[++N] = value; Swim(N); } public IComparable DeleteMax() { IComparable max = pq[1]; Exch(1,N--); pq[N + 1] = null; Sink(1); return max; } //下沉 private void Sink(int k) { while (2 * k <= N) { int j = 2 * k; //取最大的子節點 if (j < N && Less(j, j + 1)) j++; //如果父節點不小子節點,退出迴圈 if (!Less(k,j)) break; //否則交換,繼續下沉 Exch(j,k); k = j; } } //上浮 private void Swim(int n) { while (n > 1 && Less(n / 2, n)) { Exch(n/2,n); n = n / 2; } } private void Exch(int i, int j) { IComparable temp = pq[i]; pq[i] = pq[j]; pq[j] = temp; } private bool Less(int i, int j) { return pq[i].CompareTo(pq[j]) < 0; } }
上述演算法對優先佇列的實現能夠保證插入和刪除最大元素這兩個操作的用時和佇列的大小成對數關係。這裡省略了動態調整陣列大小的程式碼,可以參考下壓棧。
對於一個含有 N 個元素的基於堆的優先佇列,插入元素操作只需要不超過(lgN + 1)次比較,因為 N 可能不是 2 的冪。刪除最大元素的操作需要不超過 2lgN次比較(兩個子結點的比較和父結點與較大子節點的比較)。
對於需要大量混雜插入和刪除最大元素的操作,優先佇列很適合。
改進
1. 多叉堆
基於陣列表示的完全三叉樹:對於陣列 1 至 N 的 N 個元素,位置 k 的結點大於等於位於 3k-1, 3k ,3k +1 的結點,小於等於位於 (k+1)/ 3 的結點。
2.調整陣列大小
使用動態陣列,可以構造一個無需關注佇列大小的優先佇列。可以參考下壓棧。
3.索引優先佇列
在許多應用程式中,允許客戶端引用優先順序佇列中已經存在的專案是有意義的。一種簡單的方法是將唯一的整數索引與每個專案相關聯。
堆排序
我們可以把任意優先佇列變成一種排序方法:先將所有元素插入一個查詢最小元素的優先佇列,再重複呼叫刪除操作刪除最小元素來將它們按順序刪除。這種排序成為堆排序。
堆排序的第一步是堆的構造,第二步是下沉排序階段。
1.堆的構造
簡單的方法是利用前面優先佇列插入元素的方法,從左到右遍歷陣列呼叫 Swim 方法(由上演算法所需時間和 N logN 成正比)。一個更聰明高效的方法是,從右(中間位置)到左呼叫 Sink 方法,只需遍歷一半陣列,因為另一半是大小為 1 的堆。這種方法只需少於 2N 次比較和 少於 N 次交換。(堆的構造過程中處理的堆都比較小。例如,要構造一個 127 個元素的陣列,需要處理 32 個大小為 3 的堆, 16 個大小為 7 的堆,8 個大小為 15 的堆, 4 個大小為 31 的堆, 2 個大小為 63 的堆和 1 個大小為127的堆,因此在最壞情況下,需要 32*1 + 16*2 + 8*3 + 4*4 + 2*5 + 1*6 = 120 次交換,以及兩倍的比較)。
2.下沉排序
堆排序的主要工作在第二階段。將堆中最大元素和堆底元素交換,並下沉至 N--。相當於刪除最大元素並將堆底元素放至堆頂(優先佇列刪除操作),將刪除的最大元素放入空出的陣列位置。
public class MaxPriorityQueueSort { public static void Sort(IComparable[] pq) { int n = pq.Length; for (var k = n / 2; k >= 1; k--) { Sink(pq, k, n); } //上浮需要遍歷全部 //for (var k = n; k >= 1; k--) //{ // Swim(pq, k); //} while (n > 1) { Exch(pq,1,n--); Sink(pq,1,n); } } private static void Swim(IComparable[] pq, int n) { while (n > 1 && Less(pq,n / 2, n)) { Exch(pq,n / 2, n); n = n / 2; } } //下沉 private static void Sink(IComparable[] pq,int k, int N) { while (2 * k <= N) { int j = 2 * k; //取最大的子節點 if (j < N && Less(pq,j, j + 1)) j++; //如果父節點不小子節點,退出迴圈 if (!Less(pq, k,j)) break; //否則交換,繼續下沉 Exch(pq, j,k); k = j; } } private static void Exch(IComparable[] pq, int i, int j) { IComparable temp = pq[i-1]; pq[i - 1] = pq[j - 1]; pq[j - 1] = temp; } private static bool Less(IComparable[] pq, int i, int j) { return pq[i - 1].CompareTo(pq[j - 1]) < 0; } public static void Show(IComparable[] a) { for (var i = 0; i < a.Length; i++) Console.WriteLine(a[i]); } }
堆排序的軌跡
將 N 個元素排序,堆排序只需少於 (2N lgN + 2N)次比較以及一半次數的交換。2N 來自堆的構造,2N lgN 是每次下沉操作最多需要 2lgN 次比較。
先下沉後上浮
在排序過程中,大多數重新插入堆中的專案都會一直到達底部。因此,通過避免檢查元素是否已到達其位置,可以簡單地提升兩個子結點中的較大者直到到達底部,然後上浮到適當位置,從而節省時間。這個方法將比較數減少了2倍,但需要額外的簿空間。只有當比較操作代價較高時可以使用這種方法。(例如將字串或其他鍵值較長型別的元素排序)。
堆排序是能夠同時最優利用空間和時間的方法,在最壞情況下也能保證 ~2N lgN 次比較和恆定的額外空間。當空間緊張時,可以使用堆排序。但堆排序無法利用快取。因為它的陣列元素很少喝相鄰的其他元素比較,因此快取未命中的次數要遠高於大多數比較都在相鄰元素之間進行的演算法。