Python排序演算法[二]：測試資料的迷霧散去

進擊的Coder發表於2018-12-26

原文網址 : http://blog.itpub.net/31557738/viewspace-2286548/

演算法試驗中不僅僅要嘗試使用不同的寫法，更要注意測試所用資料的規律性，它們都會直接影響測試結果。

在上一篇文章《Python 排序演算法[一]：令你茅塞頓開，卻又匪夷所思》中我們學習了排序演算法中比較費時間的三種：氣泡排序、選擇排序、插入排序。並且在測試過程中發現了匪夷所思的問題，但是這都難不倒諸位 Coder。回顧一下上次測試的結果（3 萬零 1 的資料排序）：

氣泡排序 - 41
選擇排序（兩層 for） - 47
選擇排序（max mix） - 14
插入排序 - 0.007398
複製程式碼

相對而言，氣泡排序和選擇排序連插入排序的尾燈都看不到。

當即就有讀者提出了看法：

大家都認為造成插入排序速度與其他兩種排序速度巨大差異的原因是資料量和規律的值（當時的值非常規律，data=[i for i in range(3000)]）。

所以這一次我將使用隨機值來再次測試，看一看排序速度是否跟排序值的規律程度有關：

隨機值

這一次的測試資料與上一次的不同，上一次確實是太規律了，所以這一次採用隨機值：


from random import randint

data = [randint(6, 20000) for i in range(30000)]
data.insert(500, 5)
data.insert(700, 7)
data.insert(900, 9)
複製程式碼

並且還在生成的隨機值列表中不同位置插入 3 個值，有了不規律的隨機值，接下來就可以開始測試了。

氣泡排序

def bubble(data):
    for i in range(len(data)-1):    # 排序次數
        for s in range(len(data)-i-1):  # s為列表下標
            if data[s] > data[s+1]:
                data[s], data[s+1] = data[s+1], data[s]
    return data


start_time = datetime.now()
res = bubble(data)

print(datetime.now() - start_time)
print(len(res), res[:5], res[700:705], res[10000:10005])
複製程式碼

得到的輸出結果為：

0:01:20.273247
30003 [5, 6, 7, 7, 7] [492, 492, 492, 493, 495] [6665, 6665, 6666, 6668, 6668]
複製程式碼

80 秒！氣泡排序的測試結果證明，隨機元素的列表排序比規律元素的列表排序費時更久。

選擇排序（兩層 for）


def selections(nums):
    for i in range(len(nums)):
        min_index = min(nums)  # 最小值
        for j in range(len(nums) - i):
            if nums[min_index] < nums[j]:
                min_index = j
        nums[min_index], nums[len(nums) - i - 1] = nums[len(nums) - i - 1], nums[min_index]
    return nums


start_time = datetime.now()
res = selections(data)

print(datetime.now() - start_time)
print(len(res), res[:5], res[700:705], res[10000:10005])

複製程式碼

得到的結果為：

0:01:07.171114
30003 [6, 6, 7, 7, 8] [444, 445, 445, 446, 447] [6652, 6654, 6654, 6654, 6654]
複製程式碼

本次耗時 67 秒，而之前使用規律的值排序時耗時約 47 秒。選擇排序（兩層 for）的測試結果同樣證明了隨機元素的列表排序比規律元素的列表排序費時更久。

選擇排序（min max）

start_time = datetime.now()
res = []
for i in range(0, len(data)):
    aps = min(data)
    data.remove(aps)
    res.append(aps)
print(datetime.now() - start_time)
print(len(res), res[:5], res[700:705], res[10000:10005])
複製程式碼

執行後得到的輸出結果為：

0:00:10.102158
30003 [5, 6, 6, 7, 7] [443, 443, 443, 444, 444] [6645, 6646, 6649, 6650, 6650]
複製程式碼

這一次耗時 10 秒，甚至比之前規律元素排序耗費的 14 秒更省時間。

插入排序


def direct_insert(nums):
    # 崔慶才丨靜覓、韋世東丨奎因 邀請你關注微信公眾號【進擊的Coder】
    for i in range(1, len(nums)):
        temp = nums[i]  # temp變數指向尚未排好序元素（從第二個開始）
        j = i-1  # j指向前一個元素的下標
        while j >= 0 and temp < nums[j]:
            # temp與前一個元素比較，若temp較小則前一元素後移，j自減，繼續比較
            nums[j+1] = nums[j]
            j = j-1
            nums[j+1] = temp  # temp所指向元素的最終位置
    return nums


start_time = datetime.now()
res = direct_insert(data)
print(datetime.now() - start_time)
print(len(res), res[:5], res[700:705], res[10000:10005])
複製程式碼

執行後得到的輸出結果為：

0:00:57.681174
30003 [5, 6, 6, 7, 7] [455, 456, 459, 459, 460] [6647, 6649, 6649, 6649, 6649]
複製程式碼

這一次插入排序的速度再不是快的離譜了，在猜想範圍之內。

迷霧散去

相比上一次使用非常規律的 [ i for i in range(3000)]，這一次使用 randint 生成的列表肯定是非常不規律的：

print(data[:20])
複製程式碼

列印列表前 20 的元素，得到結果為：

[13698, 19871, 8468, 8735, 3473, 510, 788, 5070, 14585, 13324, 11743, 4310, 16460, 7102, 1900, 16608, 12342, 9724, 1482, 19609]
複製程式碼

這些元素的值有百位、千位、萬位，證明了它們確是是不規律的。

多次測試得到的結果都相差無幾，在以上幾種排序的測試中，3 萬左右的資料量排序最快的是選擇排序（min max），它的排序速度保持在 10 秒內。

那麼，選擇排序的時間複雜度還是 O(n*n) 麼？

為什麼同樣是找到最大（小）值，使用 max/min + pop 的速度會快很多，真的是因為 pop 後，n 就變成了 k，複雜度變成了 O(n+k) 了呢？？？

這一次的實驗，告訴我們在測試中應該採用隨機值的列表，而不是像上一次那樣使用非常規律的 [i for i in range(3000)]

迷霧中的自動化測試體系建設
2022-01-04
戰爭迷霧
2018-08-06
霧魘重重-《迷霧之夏》移動版封測來襲
2020-09-11
撥開JS事件的迷霧（一）
2018-09-01
JS事件
Java資料結構與排序演算法（二）
2018-08-05
Java資料結構排序演算法
《迷霧偵探》評測：賽博朋克版的《清明上河圖》
2019-04-30
TestComplete資料驅動測試教程（二）——記錄測試資料
2019-03-20
資料結構和演算法面試題系列—排序演算法之快速排序
2018-09-28
資料結構演算法面試題排序
撥開SAP與Hadoop整合的迷霧LL
2022-03-21
Hadoop
迷霧探險10 | 踩坑Gym
2018-12-27
迷霧大陸 S4 47
2024-11-24
python演算法與資料結構-快速排序(36)
2019-06-25
Python演算法資料結構排序
資料結構與演算法：二叉排序樹
2020-10-13
資料結構演算法排序
資料結構和演算法面試題系列—排序演算法之基礎排序
2018-09-27
資料結構演算法面試題排序
硬核技術宅偵探和他的007黑貓——《迷霧偵探》評測
2019-05-05
迷題已至-《迷霧之夏》移動版正式上線
2020-09-25
python演算法與資料結構-希爾排序(35)
2019-06-24
Python演算法資料結構排序
python演算法與資料結構-氣泡排序(32)
2019-06-22
Python演算法資料結構排序
python演算法與資料結構-插入排序(34)
2019-06-22
Python演算法資料結構排序
AI演算法測評(二)--演算法測試流程
2022-02-08
AI演算法
python 常用的排序演算法
2018-09-27
Python排序演算法
撥開迷霧，還原真實的醫美金融
2022-04-28
資料結構與演算法——排序演算法-歸併排序
2021-09-01
資料結構演算法排序
資料結構與演算法——排序演算法-基數排序
2021-09-01
資料結構演算法排序
資料結構與演算法——排序演算法-氣泡排序
2021-08-29
資料結構演算法排序
資料結構與演算法——排序演算法-選擇排序
2021-08-30
資料結構演算法排序
新潮測試平臺--慎用 PRC 返回的資料 (二)
2020-04-17
Python factory_boy 生成測試資料
2024-06-01
Python
簡單介紹Python迷宮生成和迷宮破解演算法
2020-04-24
Python演算法
軟體測試之資料庫系列二
2019-08-26
資料庫
Python資料結構與演算法_第6節_排序 & 搜尋
2020-12-02
Python資料結構演算法排序
揭開迷霧，尋找真相《迷霧之夏》PC版現已在Steam平臺發售！線上活動盤點
2020-07-17
Python排序演算法之選擇排序
2019-08-20
Python排序演算法
資料排序_麥克機試
2024-06-22
排序
排序檢測演算法
2018-11-07
排序演算法
python版本排序演算法
2018-04-24
Python排序演算法
資料結構與演算法——排序
2020-09-18
資料結構演算法排序
[資料結構與演算法] 排序演算法
2020-02-08
資料結構演算法排序