堆和索引堆的python實現

james發表於2019-02-16

原文網址 : https://flycode.co/archives/80292

堆是一棵完全二叉樹。堆分為大根堆和小根堆，大根堆是父節點大於左右子節點，並且左右子樹也滿足該性質的完全二叉樹。小根堆相反。可以利用堆來實現優先佇列。

由於是完全二叉樹，所以可以使用陣列來表示堆，索引從0開始[0:length-1]。結點i的左右子節點分別為2i+1,2i+2。長度為length的樹的最後一個非葉子節點為length//2-1。當前節點i的父節點為(i-1)//2。其中//表示向下取整。

以大根堆舉例。當每次插入或者刪除的時候，為了保證堆的結構特徵不被破壞，需要進行調整。調整分為兩種，一種是從上往下，將小的數下沉。一種是從下往上，令大的數上浮。

具體實現如下：

首先編寫幾個魔術方法。包括建構函式，可以直接呼叫len來返回data陣列長度的函式，一個列印data內容的函式

 def __init__(self, data=[]):
        self.data = data
        self.construct_heap()

 def __len__(self):
        return len(self.data)

 def __str__(self):
        return str(self.data)

定義一個swap函式，來方便的交換陣列中兩個索引處的值。

    def swap(self, i, j):
        self.data[i], self.data[j] = self.data[j], self.data[i]

定義float_up方法，使堆中大的數能浮上來。當前節點不為根節點，並且當前節點資料大小大於父節點時，上浮。

 def float_up(self, i):
       while i > 0 and self.data[i] > self.data[(i - 1) // 2]:
           self.swap(i, (i - 1) // 2)
           i = (i - 1) // 2

定義sink_down方法，使堆中小的數沉下去。當前節點不為葉子節點時，如果小於左孩子或右孩子的資料，則和左右孩子中較大的換一下位置。

 def sink_down(self, i):
        while i < len(self) // 2:
            l, r = 2 * i + 1, 2 * i + 2
            if r < len(self) and self.data[l] < self.data[r]:
                l = r
            if self.data[i] < self.data[l]:
                self.swap(i, l)

            i = l

實現append方法，能夠動態地新增資料。在資料陣列尾部新增資料，然後將資料上浮。

    def append(self, data):
        self.data.append(data)
        self.float_up(len(self) - 1)

實現pop_left方法，取堆中最大元素，即優先佇列中第一個元素。將陣列中第一個元素與最後一個元素換位置，刪除最後一個元素，然後將第一個元素下沉到合適的位置。

    def pop_left(self):
        self.swap(0, len(self) - 1)
        r = self.data.pop()
        self.sink_down(0)
        return r

如果想在初始化堆的時候，向建構函式中傳入資料引數，則需要一次性將整個堆構建完畢，而不能一個一個加入。實現也很簡單，從最後一個非葉節點開始，逐個執行sink_down操作。

    def construct_heap(self):
        for i in range(len(self) // 2 - 1, -1, -1):
            self.sink_down(i)

這樣一個基本的堆的程式碼就編寫完畢了。
但是如果我們想要動態的改變資料，當前的堆就不能滿足我們的需求了，因為索引不能總是標識同一個資料，因為堆的結構是不斷調整的。我們需要使用索引堆。

在索引堆中，我們不在堆中直接儲存資料，而是用在堆中存放資料的索引。
如果我們輸入的資料arr是 45 20 12 5 35。則arr[0]一直指向45，arr[1]一直指向20，因為我們在調整堆結構中實際調整的是索引陣列，而不會改變真實存放資料的陣列。

因此我們的程式碼需要調整，首先在建構函式中加入一個索引陣列。下標從0開始，與存放資料的陣列的下標相對應。

    def __init__(self, data=[]):
        self.data = data
        self.index_arr = list(range(len(self.data)))
        self.construct_heap()

然後將返回堆長度的魔術函式也修改一下。

    def __len__(self):
        return len(self.index_arr)

調整一下之前定義的swap方法，原來是直接交換資料，現在交換索引。

 def swap(self, i, j):
        self.index_arr[i], self.index_arr[j] = self.index_arr[j], self.index_arr[i]

調整float_up以及sink_down中的相應位置

    def float_up(self, i):
        while i > 0 and self.data[self.index_arr[i]] > self.data[self.index_arr[(i - 1) // 2]]:
            self.swap(i, (i - 1) // 2)
            i = (i - 1) // 2
            
    def sink_down(self, i):
        while i < len(self) // 2:
            l, r = 2 * i + 1, 2 * i + 2
            if r < len(self) and self.data[self.index_arr[l]] < self.data[self.index_arr[r]]:
                l = r
            if self.data[self.index_arr[i]] < self.data[self.index_arr[l]]:
                self.swap(i, l)

            i = l

當append資料的時候，要相應的更新index_arr

    def append(self, data):
        self.data.append(data)
        self.index_arr.append(len(self))
        self.float_up(len(self) - 1)

當移出資料的時候，之前已經提到過存放資料的陣列，是按照append的順序進行儲存的，平時操作只是對index_arr的順序進行調整。
如果data_arr為 42 30 74 60 相應的index_arr應該為2 3 0 1
這時，當我們popleft出最大元素時，data_arr中的74被移出後變成了42 30 60，陣列中最大索引由3變成了2，如果索引陣列中仍然用3這個索引來索引30會造成index溢位。74的索引為2，需要我們將索引數在2之後的都減1。
綜上，在刪除元素時，我們原先是將data_arr中的首尾元素互換，再刪除尾部元素，再對頭部元素進行sink_down操作。現在我們先換索引陣列中首尾元素，再刪除索引陣列尾部元素，此時尚未操作存放data的data_arr，因此索引陣列剩餘元素與data_arr的元素仍是一一對應的。進行sink_down操作，操作完成之後再刪除data_arr相應位置元素。最後將index_arr中值大於原index_arr頭部元素值的減一。

    def pop_left(self):
        self.swap(0, len(self) - 1)
        r = self.index_arr.pop()
        self.sink_down(0)
        self.data.pop(r)

        for i, index in enumerate(self.index_arr):
            if index > r:
                self.index_arr[i] -= 1

        return r

索引堆增加了一個更新操作，可以隨時更新索引堆中的資料。更新時，先直接更新data_arr中相應索引處的資料，然後在index_arr中，找到存放了data_arr中，剛被更新的資料的索引的索引位置，與刪除時一樣需要進行一次遍歷。找到這個位置之後，由於無法確定與前後元素的大小關係，因此需要進行一次float_up操作再進行一次sink_down操作。

    def update(self, i, data):
        self.data[i] = data
        for index_index, index in enumerate(self.index_arr):
            if index == i:
                target = index_index

        self.float_up(target)
        self.sink_down(target)

可以很明顯看出，這個索引堆在插入元素時是比較快的，但是在刪除元素和更新元素時，為了查詢相應位置索引，都進行了一次遍歷，這是很耗時的操作。為了能更快的找到index_arr中值為要更新的data_arr的相應索引值得索引位置，我們再次開闢一個新的陣列to_index，來對index_arr進行索引。

例如對於陣列75 54 65 90
此時它的index_arr為3 0 2 1。當要更新data[3]，即90這個元素時，現在要遍歷一遍index_arr來找到3這個位置，這個位置是0。我們要建立一個to_index，to_index[3]中存放的元素為0。
index_arr存放的元素分別為： 1 3 2 0。

先改變swap陣列，在交換index_arr中元素時，也交換存放在to_index中的index_arr的索引。

 def swap(self, i, j):
        self.index_arr[i], self.index_arr[j] = self.index_arr[j], self.index_arr[i]
        self.to_index[self.index_arr[i]], self.to_index[self.index_arr[j]] = self.to_index[self.index_arr[j]], 
                                                                             self.to_index[self.index_arr[i]]

然後在update中，當要更新位置為i的元素時，我們就不需要通過一次遍歷才能找到index_arr中該元素的索引，而是直接通過訪問index_arr[i]即可訪問index_arr中相應索引

    def update(self, i, data):
        self.data[i] = data
        target = self.to_index[i]
        self.float_up(target)
        self.sink_down(target)

最後改變pop_left中相應程式碼，這時我們需要維護三個陣列，data_arr，index_arr以及to_index。
仍然是首先將index_arr首位元素交換，並pop出尾部元素存放到i中。然後將頭部元素sink_down到相應位置，然後將pop出data_arr索引i處的元素。然後pop出to_index中索引為i的元素，再將index_arr中索引溢位的元素進行調整。

    def pop_left(self):
        self.swap(0, len(self) - 1)
        r = self.index_arr.pop()

        self.sink_down(0)
        self.data.pop(r)

        self.to_index.pop(r)
        for i in range(r, len(self)):
            self.index_arr[self.to_index[i]] -= 1

        return r

以上就是python實現對和索引堆的具體方式。

PHP 實現堆, 堆排序以及索引堆
2019-02-14
PHP排序索引
大頂堆的python實現
2020-11-29
Python
Python實現堆疊與佇列
2018-03-19
Python佇列
堆的原理與實現
2021-09-21
基於"堆"的底層實現和應用
2019-03-09
大根堆和堆排序的原理與實現
2020-12-01
排序
java使用PriorityQueue即優先佇列實現大根堆和小根堆
2020-11-08
Java佇列
大根堆和小根堆的介紹
2024-08-05
堆的原理以及實現O(lgn)
2023-09-27
python堆和棧的區別有哪些
2021-09-11
Python
4.16 實現自己的堆管理器
2020-10-09
堆的定義、特點及實現
2020-11-05
資料結構之索引堆(IndexHeap)
2021-05-11
資料結構索引Index
堆疊的實現(1)--靜態陣列
2018-05-17
陣列
Rust 中的Box型別實現堆分配
2024-06-19
Rust型別
堆和棧的概念和區別
2018-04-18
堆和堆傻傻分不清？一文告訴你 Java 集合中「堆」的最佳開啟方式
2020-07-13
Java
JavaScript理解堆和棧
2020-10-29
JavaScript
堆
2024-12-06
堆和棧的解釋和區別
2018-07-11
二叉堆實現優先佇列
2020-10-05
佇列
使用C#實現資料結構堆
2021-02-03
C#資料結構
堆的學習
2024-10-30
樹堆
2024-04-21
堆 todo
2024-03-27
資料結構&堆&heap&priority_queue&實現
2018-09-21
資料結構
python3 堆相關函式的使用
2024-10-29
Python函式
測試平臺-flask_admin+mongodb+pyechart 實現堆疊和翻頁
2020-06-17
FlaskMongoDB
堆和棧在物理上的區別
2018-08-29
C++中堆和棧的完全解析
2018-05-03
C++
如何正確理解棧和堆？
2019-03-30
Java中棧和堆講解
2020-06-30
Java
託管堆和垃圾回收（GC）
2019-07-16
GC
資料結構-詳解優先佇列的二叉堆（最大堆）原理、實現和應用-C和Python
2023-02-01
資料結構佇列Python
說說你對堆的理解？如何實現？應用場景？
2024-04-18
JS 堆疊
2018-09-06
JS
08-堆
2020-10-06
平衡堆疊
2024-10-18

堆和索引堆的python實現

相關文章