資料結構與演算法——複雜度分析

Heriam發表於2020-12-19

原文連結:https://jiang-hao.com/articles/2020/algorithms-data-structure-n-algorithm-1.html

概述

從廣義上講,資料結構就是指一組資料的儲存結構。演算法就是運算元據的一組方法。

資料結構和演算法是相輔相成的。資料結構是為演算法服務的,演算法要作用在特定的資料結構之上。比如,因為陣列具有隨機訪問的特點,常用的二分查詢演算法需要用陣列來儲存資料。但如果我們選擇連結串列這種資料結構,二分查詢演算法就無法工作了,因為連結串列並不支援隨機訪問。

想要學習資料結構與演算法,首先要掌握一個資料結構與演算法中最重要的概念——複雜度分析。它幾乎佔了資料結構和演算法這門課的半壁江山,是資料結構和演算法學習的精髓。

資料結構和演算法解決的是如何更省、更快地儲存和處理資料的問題,因此,我們就需要一個考量效率和資源消耗的方法,這就是複雜度分析方法。

下圖幾乎涵蓋了所有資料結構和演算法書籍中都會講到的知識點:

資料結構與演算法——複雜度分析

但是,作為初學者,或者一個非演算法工程師來說,並不需要掌握圖裡面的所有知識點。下面總結了 20 個最常用的、最基礎資料結構與演算法,不管是應付面試還是工作需要,其實只要集中精力逐一攻克這 20 個知識點就足夠了:

  • 10 個資料結構:陣列、連結串列、棧、佇列、雜湊表、二叉樹、堆、跳錶、圖、Trie 樹

  • 10 個演算法:遞迴、排序、二分查詢、搜尋、雜湊演算法、貪心演算法、分治演算法、回溯演算法、動態規劃、字串匹配演算法

在學習資料結構和演算法的過程中,也要注意,不要只是死記硬背,不要為了學習而學習,而是要學習它的“來歷”“自身的特點”“適合解決的問題”以及“實際的應用場景”。

時間複雜度分析

資料結構和演算法本身解決的是“快”和“省”的問題,即如何讓程式碼執行得更快,如何讓程式碼更省儲存空間。所以,執行效率是演算法一個非常重要的考量指標。那如何來衡量你編寫的演算法程式碼的執行效率呢?這裡就要用到我們今天要講的內容:時間、空間複雜度分析。

大 O 複雜度表示法

關鍵結論:

假設每行程式碼執行的時間都一樣,為 $unitTime$,則所有程式碼的執行時間 T(n) 與每行程式碼的執行次數成正比。

我們可以把這個規律總結成一個公式:

資料結構與演算法——複雜度分析

其中,T(n) 我們已經講過了,它表示程式碼執行的時間;n 表示資料規模的大小;f(n) 表示每行程式碼執行的次數總和。因為這是一個公式,所以用 f(n) 來表示。公式中的 O,表示程式碼的執行時間 T(n) 與 f(n) 表示式成正比。

按照這個分析思路,我們再來看這段程式碼。

 int cal(int n) {
   int sum = 0;
   int i = 1;
   int j = 1;
   for (; i <= n; ++i) {
     j = 1;
     for (; j <= n; ++j) {
       sum = sum +  i * j;
     }
   }
 }

第 2、3、4 行程式碼,每行都需要 1 個 $unit Time$ 的執行時間,第 5、6 行程式碼迴圈執行了 $n$ 遍,需要$ 2n * unitTime$ 的執行時間,第 7、8 行程式碼迴圈執行了 $n^2$遍,所以需要 $2n^2* unitTime$ 的執行時間。所以,整段程式碼總的執行時間 $T(n) = O(2n^2+2n+3)$。

大 O 時間複雜度實際上並不具體表示程式碼真正的執行時間,而是表示程式碼執行時間隨資料規模增長的變化趨勢,所以,也叫作漸進時間複雜度(asymptotic time complexity),簡稱時間複雜度。

當 n 很大時,你可以把它想象成 10000、100000。而公式中的低階、常量、係數三部分並不左右增長趨勢,所以都可以忽略。我們只需要記錄一個最大量級就可以了,如果用大 O 表示法表示剛講的那段程式碼的時間複雜度,就可以記為:$T(n) = O(n^2)$。

時間複雜度分析

如何分析一段程式碼的時間複雜度?我們有三個比較實用的方法。

只關注迴圈執行次數最多的一段程式碼

大 O 這種複雜度表示方法只是表示一種變化趨勢。我們通常會忽略掉公式中的常量、低階、係數,只需要記錄一個最大階的量級就可以了。所以,我們在分析一個演算法、一段程式碼的時間複雜度的時候,也只關注迴圈執行次數最多的那一段程式碼就可以了。這段核心程式碼執行次數的 n 的量級,就是整段要分析程式碼的時間複雜度。

這裡我要再強調一下,即便某段程式碼迴圈 10000 次、100000 次,只要是一個已知的數,跟 n 無關,照樣也是常量級的執行時間。當 n 無限大的時候,就可以忽略。儘管對程式碼的執行時間會有很大影響,但是回到時間複雜度的概念來說,它表示的是一個演算法執行效率與資料規模增長的變化趨勢,所以不管常量的執行時間多大,我們都可以忽略掉。因為它本身對增長趨勢並沒有影響。

多段同級程式碼的總複雜度等於量級最大的那段程式碼的複雜度

抽象成公式就是:
$$
如果 T_1(n)=O(f(n)),T_2(n)=O(g(n));那麼 T(n)=max(O(f(n)), O(g(n))) =O(max(f(n), g(n))).
$$
多個巢狀迴圈程式碼的複雜度等於巢狀內外程式碼複雜度的乘積

抽象成公式就是:
$$
如果 T_1(n)=O(f(n)),T_2(n)=O(g(n));那麼 T(n)=T_1(n)T_2(n)=O(f(n))O(g(n))=O(f(n)*g(n)).
$$
舉個例子:

int cal(int n) {
   int ret = 0; 
   int i = 1;
   for (; i < n; ++i) {
     ret = ret + f(i);
   } 
} 
 
int f(int n) {
  int sum = 0;
  int i = 1;
  for (; i < n; ++i) {
    sum = sum + i;
  } 
  return sum;
}

我們單獨看 $cal()$ 函式。假設 $f()$ 只是一個普通$O(1)$的操作,那第 4~6 行的時間複雜度就是,$T_1(n) = O(n)$。但 $f()$ 函式本身不是一個簡單的操作,它的時間複雜度是 $T_2(n) = O(n)$,所以,整個 $cal()$ 函式的時間複雜度就是,$T(n) = T_1(n) * T_2(n) = O(n*n) = O(n^2)$。

幾種常見時間複雜度例項分析

雖然程式碼千差萬別,但是常見的複雜度量級並不多。我稍微總結了一下,這些複雜度量級幾乎涵蓋了你今後可以接觸的所有程式碼的複雜度量級。

資料結構與演算法——複雜度分析

對於以上羅列的複雜度量級,我們可以粗略地分為兩類,多項式量級和非多項式量級。其中,非多項式量級只有兩個:$O(2^n)$ 和 $O(n!)$。

我們把時間複雜度為非多項式量級的演算法問題叫作 NP(Non-Deterministic Polynomial,非確定多項式)問題。

當資料規模 n 越來越大時,非多項式量級演算法的執行時間會急劇增加,求解問題的執行時間會無限增長。所以,非多項式時間複雜度的演算法其實是非常低效的演算法。因此,關於 NP 時間複雜度我們就不展開講了。我們主要來看幾種常見的多項式時間複雜度。

O(1)

首先必須明確一個概念,O(1) 只是常量級時間複雜度的一種表示方法,並不是指只執行了一行程式碼。比如這段程式碼,即便有 3 行,它的時間複雜度也是 O(1),而不是 O(3)。

int i = 8; 
int j = 6; 
int sum = i + j;

總結一下,只要程式碼的執行時間不隨 n 的增大而增長,這樣程式碼的時間複雜度我們都記作 O(1)。或者說,一般情況下,只要演算法中不存在迴圈語句、遞迴語句,即使有成千上萬行的程式碼,其時間複雜度也是Ο(1)。

O(logn)、O(nlogn)

對數階時間複雜度非常常見,同時也是最難分析的一種時間複雜度。我們通過一個例子來說明一下。

i=1; 
while (i <= n) { 
	i = i * 2; 
}

根據我們前面講的複雜度分析方法,第三行程式碼是迴圈執行次數最多的。所以,我們只要能計算出這行程式碼被執行了多少次,就能知道整段程式碼的時間複雜度。

從程式碼中可以看出,變數 i 的值從 1 開始取,每迴圈一次就乘以 2。當大於 n 時,迴圈結束。還記得我們高中學過的等比數列嗎?實際上,變數 i 的取值就是一個等比數列。如果我把它一個一個列出來,就應該是這個樣子的:

資料結構與演算法——複雜度分析

所以,我們只要知道 x 值是多少,就知道這行程式碼執行的次數了。通過 $2^x=n$ 求解 x 這個問題我們想高中應該就學過了,我就不多說了。$x=log_2n$,所以,這段程式碼的時間複雜度就是 $O(log_2n)$。

現在,我把程式碼稍微改下,你再看看,這段程式碼的時間複雜度是多少?

 i=1; 
 while (i <= n) {
 		i = i * 3; 
 }

根據我剛剛講的思路,很簡單就能看出來,這段程式碼的時間複雜度為 $O(log_3n)$。

實際上,不管是以 2 為底、以 3 為底,還是以 10 為底,我們可以把所有對數階的時間複雜度都記為 $O(logn)$。為什麼呢?

我們知道,對數之間是可以互相轉換的,$log_3n$ 就等於 $log_32 * log_2n$,所以 $O(log_3n) = O(C * log_2n)$,其中 $C=log_32$ 是一個常量。基於我們前面的一個理論:在採用大 O 標記複雜度的時候,可以忽略係數,即 $O(Cf(n)) = O(f(n))$。所以,$O(log_2n)$ 就等於 $O(log_3n)$。因此,在對數階時間複雜度的表示方法裡,我們忽略對數的“底”,統一表示為 $O(logn)$。

如果你理解了我前面講的 $O(logn)$,那 $O(nlogn)$ 就很容易理解了。還記得我們剛講的乘法法則嗎?如果一段程式碼的時間複雜度是 $O(logn)$,我們迴圈執行 n 遍,時間複雜度就是 $O(nlogn)$ 了。而且,$O(nlogn)$ 也是一種非常常見的演算法時間複雜度。比如,歸併排序、快速排序的時間複雜度都是 $O(nlogn)$。

O(m+n)、O(m*n)

再來講一種跟前面都不一樣的時間複雜度,程式碼的複雜度由兩個資料的規模來決定。

int cal(int m, int n) {
  int sum_1 = 0;
  int i = 1;
  for (; i < m; ++i) {
    sum_1 = sum_1 + i;
  }

  int sum_2 = 0;
  int j = 1;
  for (; j < n; ++j) {
    sum_2 = sum_2 + j;
  }

  return sum_1 + sum_2;
}

從程式碼中可以看出,m 和 n 是表示兩個資料規模。我們無法事先評估 m 和 n 誰的量級大,所以我們在表示複雜度的時候,就不能簡單地利用加法法則,省略掉其中一個。所以,上面程式碼的時間複雜度就是 O(m+n)。

針對這種情況,原來的法則就不正確了,我們需要將規則改為:$T_1(m) + T_2(n) = O(f(m) + g(n))$。但是對於巢狀迴圈來說的乘法法則繼續有效:$T_1(m)*T_2(n) = O(f(m) * f(n))$。

最好、最壞情況時間複雜度

分析一下這段程式碼的時間複雜度。

// n表示陣列array的長度
int find(int[] array, int n, int x) {
  int i = 0;
  int pos = -1;
  for (; i < n; ++i) {
    if (array[i] == x) pos = i;
  }
  return pos;
}

你應該可以看出來,這段程式碼要實現的功能是,在一個無序的陣列(array)中,查詢變數 x 出現的位置。如果沒有找到,就返回 -1。按照上節課講的分析方法,這段程式碼的複雜度是 O(n),其中,n 代表陣列的長度。

我們在陣列中查詢一個資料,並不需要每次都把整個陣列都遍歷一遍,因為有可能中途找到就可以提前結束迴圈了。但是,這段程式碼寫得不夠高效。我們可以這樣優化一下這段查詢程式碼。

// n表示陣列array的長度
int find(int[] array, int n, int x) {
  int i = 0;
  int pos = -1;
  for (; i < n; ++i) {
    if (array[i] == x) {
       pos = i;
       break;
    }
  }
  return pos;
}

這個時候,問題就來了。我們優化完之後,這段程式碼的時間複雜度還是 O(n) 嗎?很顯然,我們們上一節講的分析方法,解決不了這個問題。

因為,要查詢的變數 x 可能出現在陣列的任意位置。如果陣列中第一個元素正好是要查詢的變數 x,那就不需要繼續遍歷剩下的 n-1 個資料了,那時間複雜度就是 O(1)。但如果陣列中不存在變數 x,那我們就需要把整個陣列都遍歷一遍,時間複雜度就成了 O(n)。所以,不同的情況下,這段程式碼的時間複雜度是不一樣的。

為了表示程式碼在不同情況下的不同時間複雜度,我們需要引入三個概念:最好情況時間複雜度、最壞情況時間複雜度和平均情況時間複雜度。

顧名思義,最好情況時間複雜度就是,在最理想的情況下,執行這段程式碼的時間複雜度。就像我們剛剛講到的,在最理想的情況下,要查詢的變數 x 正好是陣列的第一個元素,這個時候對應的時間複雜度就是最好情況時間複雜度。

同理,最壞情況時間複雜度就是,在最糟糕的情況下,執行這段程式碼的時間複雜度。就像剛舉的那個例子,如果陣列中沒有要查詢的變數 x,我們需要把整個陣列都遍歷一遍才行,所以這種最糟糕情況下對應的時間複雜度就是最壞情況時間複雜度。

平均情況時間複雜度

我們都知道,最好情況時間複雜度和最壞情況時間複雜度對應的都是極端情況下的程式碼複雜度,發生的概率其實並不大。為了更好地表示平均情況下的複雜度,我們需要引入另一個概念:平均情況時間複雜度,後面我簡稱為平均時間複雜度。平均時間複雜度又該怎麼分析呢?我還是藉助剛才查詢變數 x 的例子來解釋。

要查詢的變數 x 在陣列中的位置,有 n+1 種情況:在陣列的 0~n-1 位置中和不在陣列中。我們把每種情況下,查詢需要遍歷的元素個數累加起來,然後再除以 n+1,就可以得到需要遍歷的元素個數的平均值,即:

資料結構與演算法——複雜度分析

我們知道,時間複雜度的大 O 標記法中,可以省略掉係數、低階、常量,所以,我們們把剛剛這個公式簡化之後,得到的平均時間複雜度就是 O(n)。這個結論雖然是正確的,但是計算過程稍微有點兒問題。究竟是什麼問題呢?我們剛講的這 n+1 種情況,出現的概率並不是一樣的。

我們知道,要查詢的變數 x,要麼在陣列裡,要麼就不在陣列裡。這兩種情況對應的概率統計起來很麻煩,為了方便你理解,我們假設在陣列中與不在陣列中的概率都為 1/2。另外,要查詢的資料出現在 0~n-1 這 n 個位置的概率也是一樣的,為 1/n。所以,根據概率乘法法則,要查詢的資料出現在 0~n-1 中任意位置的概率就是 1/(2n)。

因此,前面的推導過程中存在的最大問題就是,沒有將各種情況發生的概率考慮進去。如果我們把每種情況發生的概率也考慮進去,那平均時間複雜度的計算過程就變成了這樣:

資料結構與演算法——複雜度分析

這個值就是概率論中的加權平均值,也叫作期望值,所以平均時間複雜度的全稱應該叫加權平均時間複雜度或者期望時間複雜度。

引入概率之後,前面那段程式碼的加權平均值為 (3n+1)/4。用大 O 表示法來表示,去掉係數和常量,這段程式碼的加權平均時間複雜度仍然是 O(n)。

實際上,在大多數情況下,我們並不需要區分最好、最壞、平均情況時間複雜度三種情況。像我們上一節課舉的那些例子那樣,很多時候,我們使用一個複雜度就可以滿足需求了。只有同一塊程式碼在不同的情況下,時間複雜度有量級的差距,我們才會使用這三種複雜度表示法來區分。

均攤時間複雜度

均攤時間複雜度,聽起來跟平均時間複雜度有點兒像。對於初學者來說,這兩個概念確實非常容易弄混。

平均複雜度只在某些特殊情況下才會用到,而均攤時間複雜度應用的場景比它更加特殊、更加有限。

藉助一個具體的例子:

 // array表示一個長度為n的陣列
 // 程式碼中的array.length就等於n
 int[] array = new int[n];
 int count = 0;
 
 void insert(int val) {
    if (count == array.length) {
       int sum = 0;
       for (int i = 0; i < array.length; ++i) {
          sum = sum + array[i];
       }
       array[0] = sum;
       count = 1;
    }

    array[count] = val;
    ++count;
 }

這段程式碼實現了一個往陣列中插入資料的功能。當陣列滿了之後,也就是程式碼中的 count == array.length 時,我們用 for 迴圈遍歷陣列求和,並清空陣列,將求和之後的 sum 值放到陣列的第一個位置,然後再將新的資料插入。但如果陣列一開始就有空閒空間,則直接將資料插入陣列。

那這段程式碼的時間複雜度是多少呢?你可以先用我們剛講到的三種時間複雜度的分析方法來分析一下。

最理想的情況下,陣列中有空閒空間,我們只需要將資料插入到陣列下標為 count 的位置就可以了,所以最好情況時間複雜度為 O(1)。最壞的情況下,陣列中沒有空閒空間了,我們需要先做一次陣列的遍歷求和,然後再將資料插入,所以最壞情況時間複雜度為 O(n)。

那平均時間複雜度是多少呢?答案是 O(1)。我們還是可以通過前面講的概率論的方法來分析。

假設陣列的長度是 n,根據資料插入的位置的不同,我們可以分為 n 種情況,每種情況的時間複雜度是 O(1)。除此之外,還有一種“額外”的情況,就是在陣列沒有空閒空間時插入一個資料,這個時候的時間複雜度是 O(n)。而且,這 n+1 種情況發生的概率一樣,都是 1/(n+1)。所以,根據加權平均的計算方法,我們求得的平均時間複雜度就是:

資料結構與演算法——複雜度分析

至此為止,前面的最好、最壞、平均時間複雜度的計算,理解起來應該都沒有問題。但是這個例子裡的平均複雜度分析其實並不需要這麼複雜,不需要引入概率論的知識。這是為什麼呢?我們先來對比一下這個 insert() 的例子和前面那個 find() 的例子,你就會發現這兩者有很大差別。

首先,find() 函式在極端情況下,複雜度才為 O(1)。但 insert() 在大部分情況下,時間複雜度都為 O(1)。只有個別情況下,複雜度才比較高,為 O(n)。這是 insert()第一個區別於 find() 的地方。

我們再來看第二個不同的地方。對於 insert() 函式來說,O(1) 時間複雜度的插入和 O(n) 時間複雜度的插入,出現的頻率是非常有規律的,而且有一定的前後時序關係,一般都是一個 O(n) 插入之後,緊跟著 n-1 個 O(1) 的插入操作,迴圈往復。

所以,針對這樣一種特殊場景的複雜度分析,我們並不需要像之前講平均複雜度分析方法那樣,找出所有的輸入情況及相應的發生概率,然後再計算加權平均值。

針對這種特殊的場景,我們引入了一種更加簡單的分析方法:攤還分析法,通過攤還分析得到的時間複雜度我們起了一個名字,叫均攤時間複雜度。

那究竟如何使用攤還分析法來分析演算法的均攤時間複雜度呢?

我們還是繼續看在陣列中插入資料的這個例子。每一次 O(n) 的插入操作,都會跟著 n-1 次 O(1) 的插入操作,所以把耗時多的那次操作均攤到接下來的 n-1 次耗時少的操作上,均攤下來,這一組連續的操作的均攤時間複雜度就是 O(1)。這就是均攤分析的大致思路。你都理解了嗎?

均攤時間複雜度和攤還分析應用場景比較特殊,所以我們並不會經常用到。為了方便你理解、記憶,我這裡簡單總結一下它們的應用場景。如果你遇到了,知道是怎麼回事兒就行了。

對一個資料結構進行一組連續操作中,大部分情況下時間複雜度都很低,只有個別情況下時間複雜度比較高,而且這些操作之間存在前後連貫的時序關係,這個時候,我們就可以將這一組操作放在一塊兒分析,看是否能將較高時間複雜度那次操作的耗時,平攤到其他那些時間複雜度比較低的操作上。而且,在能夠應用均攤時間複雜度分析的場合,一般均攤時間複雜度就等於最好情況時間複雜度。

儘管很多資料結構和演算法書籍都花了很大力氣來區分平均時間複雜度和均攤時間複雜度,但其實我個人認為,均攤時間複雜度就是一種特殊的平均時間複雜度,我們沒必要花太多精力去區分它們。你最應該掌握的是它的分析方法,攤還分析。至於分析出來的結果是叫平均還是叫均攤,這只是個說法,並不重要。

空間複雜度分析

前面我講過,時間複雜度的全稱是漸進時間複雜度,表示演算法的執行時間與資料規模之間的增長關係。類比一下,空間複雜度全稱就是漸進空間複雜度(asymptotic space complexity),表示演算法的儲存空間與資料規模之間的增長關係。看下面的例子:

void print(int n) {
  int i = 0;
  int[] a = new int[n];
  for (i; i <n; ++i) {
    a[i] = i * i;
  }

  for (i = n-1; i >= 0; --i) {
    print out a[i]
  }
}

跟時間複雜度分析一樣,我們可以看到,第 2 行程式碼中,我們申請了一個空間儲存變數 i,但是它是常量階的,跟資料規模 n 沒有關係,所以我們可以忽略。第 3 行申請了一個大小為 n 的 int 型別陣列,除此之外,剩下的程式碼都沒有佔用更多的空間,所以整段程式碼的空間複雜度就是 O(n)。

我們常見的空間複雜度就是 O(1)、O(n)、O(n2),像 O(logn)、O(nlogn) 這樣的對數階複雜度平時都用不到。而且,空間複雜度分析比時間複雜度分析要簡單很多。所以,對於空間複雜度,掌握以上述的這些內容已經足夠了。

內容小結

資料結構與演算法——複雜度分析

什麼是複雜度分析?

  1. 資料結構和演算法解決是“如何讓計算機更快時間、更省空間的解決問題”。
  2. 因此需從執行時間和佔用空間兩個維度來評估資料結構和演算法的效能。
  3. 分別用時間複雜度和空間複雜度兩個概念來描述效能問題,二者統稱為複雜度。
  4. 複雜度描述的是演算法執行時間(或佔用空間)與資料規模的增長關係。

為什麼要進行復雜度分析?

  1. 和效能測試相比,複雜度分析有不依賴執行環境、成本低、效率高、易操作、指導性強的特點。
  2. 掌握複雜度分析,將能編寫出效能更優的程式碼,有利於降低系統開發和維護成本。

如何進行復雜度分析?

  1. 大O表示法
    演算法的執行時間與每行程式碼的執行次數成正比,用T(n) = O(f(n))表示,其中T(n)表示演算法執行總時間,f(n)表示每行程式碼執行總次數,而n往往表示資料的規模。以時間複雜度為例,由於時間複雜度描述的是演算法執行時間與資料規模的增長變化趨勢,所以常量階、低階以及係數實際上對這種增長趨勢不產決定性影響,所以在做時間複雜度分析時忽略這些項。

  2. 複雜度分析法則
    1)單段程式碼看高頻:比如迴圈。
    2)多段程式碼取最大:比如一段程式碼中有單迴圈和多重迴圈,那麼取多重迴圈的複雜度。
    3)巢狀程式碼求乘積:比如遞迴、多重迴圈等
    4)多個規模求加法:比如方法有兩個引數控制兩個迴圈的次數,那麼這時就取二者複雜度相加。

  3. 為了表示程式碼在不同情況下的不同時間複雜度,引入最好情況時間複雜度、最壞情況時間複雜度、平均情況時間複雜度、均攤時間複雜度。在引入這幾個概念之後,我們可以更加全面地表示一段程式碼的執行效率。而且,這幾個概念理解起來都不難。最好、最壞情況下的時間複雜度分析起來比較簡單,但平均、均攤兩個複雜度分析相對比較複雜。如果你覺得理解得還不是很深入,不用擔心,在後續具體的資料結構和演算法學習中,我們可以繼續慢慢實踐!

常用的複雜度級別

  1. 多項式階:隨著資料規模的增長,演算法的執行時間和空間佔用,按照多項式的比例增長。包括,

    $$
    O(1)(常數階)、O(logn)(對數階)、O(n)(線性階)、O(nlogn)(線性對數階)、O(n2)(平方階)、O(n3)(立方階)
    $$

  2. 非多項式階:隨著資料規模的增長,演算法的執行時間和空間佔用暴增,這類演算法效能極差。包括,
    $$
    O(2^n)(指數階)、O(n!)(階乘階)
    $$

效能測試和複雜度分析的關係?

有人說,我們專案之前都會進行效能測試,再做程式碼的時間複雜度、空間複雜度分析,是不是多此一舉呢?而且,每段程式碼都分析一下時間複雜度、空間複雜度,是不是很浪費時間呢?事實上,漸進時間,空間複雜度分析為我們提供了一個很好的理論分析的方向,並且它是宿主平臺無關的,能夠讓我們對我們的程式或演算法有一個大致的認識,讓我們知道,比如在最壞的情況下程式的執行效率如何,同時也為我們交流提供了一個不錯的橋樑,我們可以說,演算法1的時間複雜度是O(n),演算法2的時間複雜度是O(logN),這樣我們立刻就對不同的演算法有了一個“效率”上的感性認識。

當然,漸進式時間,空間複雜度分析只是一個理論模型,只能提供給粗略的估計分析,我們不能直接斷定就覺得O(logN)的演算法一定優於O(n), 針對不同的宿主環境,不同的資料集,不同的資料量的大小,在實際應用上面可能真正的效能會不同.針對不同的實際情況,進而進行一定的效能基準測試也是很有必要的,比如在統一在某一批型號手機上(同樣的硬體,系統等等)進行橫向基準測試,進而選擇適合特定應用場景下的最優演算法。

綜上所述,漸進式時間,空間複雜度分析與效能基準測試並不衝突,而是相輔相成的,但是一個低階的時間複雜度程式有極大的可能性會優於一個高階的時間複雜度程式,所以在實際程式設計中,時刻關心理論時間,空間度模型是有助於產出效率高的程式的,同時,因為漸進式時間,空間複雜度分析只是提供一個粗略的分析模型,因此也不會浪費太多時間,重點在於在程式設計時,要具有這種複雜度分析的思維。

發散思考演算法分析中,通常分析最壞情況還是平均情況?

相關文章