資料結構與演算法常見問題(面試題)不定時更新

空山無月C發表於2020-11-07

一 概念
1、陣列和連結串列的區別。
從邏輯結構上來看,陣列必須實現定於固定的長度,不能適應資料動態增減的情況,即陣列的大小一旦定義就不能改變。當資料增加是,可能超過原先定義的元素的個數;當資料減少時,造成記憶體浪費;連結串列動態進行儲存分配,可以適應資料動態地增減的情況,且可以方便地插入、刪除資料項。

從記憶體儲存的角度看;陣列從棧中分配空間(用new則在堆上建立),對程式設計師方便快速,但是自由度小;連結串列從堆中分配空間,自由度大但是申請管理比較麻煩。

從訪問方式類看,陣列在記憶體中是連續的儲存,因此可以利用下標索引進行訪問;連結串列是鏈式儲存結構,在訪問元素時候只能夠通過線性方式由前到後順序的訪問,所以訪問效率比陣列要低。

2、簡述快速排序過程

1)選擇一個基準元素,通常選擇第一個元素或者最後一個元素,

2)通過一趟排序將待排序的記錄分割成獨立的兩部分,其中一部分記錄的元素值均比基準元素值小。另一部分記錄的元素值比基準值大。

3)此時基準元素在其排好序後的正確位置

4)然後分別對這兩部分記錄用同樣的方法繼續進行排序,直到整個序列有序。

3、快速排序的改進

只對長度大於k的子序列遞迴呼叫快速排序,讓原序列基本有序,然後再對整個基本有序序列用插入排序演算法排序。實踐證明,改進後的演算法時間複雜度有所降低,且當k取值為 8 左右時,改進演算法的效能最佳。

選擇基準元的方式

對於分治演算法,當每次劃分時,演算法若都能分成兩個等長的子序列時,那麼分治演算法效率會達到最大。也就是說,基準的選擇是很重要的。選擇基準的方式決定了兩個分割後兩個子序列的長度,進而對整個演算法的效率產生決定性影響。最理想的方法是,選擇的基準恰好能把待排序序列分成兩個等長的子序列。

方法1 固定基準元

如果輸入序列是隨機的,處理時間是可以接受的。如果陣列已經有序時,此時的分割就是一個非常不好的分割。

方法2 隨機基準元

這是一種相對安全的策略。由於基準元的位置是隨機的,那麼產生的分割也不會總是會出現劣質的分割。在整個陣列數字全相等時,仍然是最壞情況,時間複雜度是O(n2)。實際上,隨機化快速排序得到理論最壞情況的可能性僅為1/(2n)。所以隨機化快速排序可以對於絕大多數輸入資料達到O(nlogn)的期望時間複雜度。

方法3 三數取中

引入的原因:雖然隨機選取基準時,減少出現不好分割的機率,但是還是最壞情況下還是O(n^2),要緩解這種情況,就引入了三數取中選取基準。

分析:最佳的劃分是將待排序的序列分成等長的子序列,最佳的狀態我們可以使用序列的中間的值,也就是第N/2個數。可是,這很難算出來,並且會明顯減慢快速排序的速度。這樣的中值的估計可以通過隨機選取三個元素並用它們的中值作為基準元而得到。事實上,隨機性並沒有多大的幫助,因此一般的做法是使用左端、右端和中心位置上的三個元素的中值作為基準元。

4、各類排序演算法對比

在這裡插入圖片描述

時間複雜度來說:

(1)平方階(O(n2))排序
  各類簡單排序:直接插入、直接選擇和氣泡排序;
(2)線性對數階(O(nlog2n))排序
  快速排序、堆排序和歸併排序;
(3)O(n1+§))排序,§是介於0和1之間的常數。

   希爾排序

(4)線性階(O(n))排序
  基數排序,此外還有桶、箱排序。

說明:

當原表有序或基本有序時,直接插入排序和氣泡排序將大大減少比較次數和移動記錄的次數,時間複雜度可降至O(n);

而快速排序則相反,當原表基本有序時,將蛻化為氣泡排序,時間複雜度提高為O(n2);

原表是否有序,對簡單選擇排序、堆排序、歸併排序和基數排序的時間複雜度影響不大。

穩定性:

排序演算法的穩定性:若待排序的序列中,存在多個具有相同關鍵字的記錄,經過排序,這些記錄的相對次序保持不變,則稱該演算法是穩定的;若經排序後,記錄的相對次序發生了改變,則稱該演算法是不穩定的。

穩定的排序演算法:氣泡排序、插入排序、歸併排序和基數排序

不是穩定的排序演算法:選擇排序、快速排序、希爾排序、堆排序

選擇排序演算法準則:

一般而言,需要考慮的因素有以下四點:

設待排序元素的個數為n.

1)當n較大,則應採用時間複雜度為O(nlog2n)的排序方法:快速排序、堆排序或歸併排序序。

2)當n較大,記憶體空間允許,且要求穩定性:歸併排序

3)當n較小,可採用直接插入或直接選擇排序。

直接插入排序:當元素分佈有序,直接插入排序將大大減少比較次數和移動記錄的次數。

直接選擇排序 :元素分佈有序,如果不要求穩定性,選擇直接選擇排序

5)一般不使用或不直接使用傳統的氣泡排序。

6)基數排序
它是一種穩定的排序演算法,但有一定的侷限性:
  1、關鍵字可分解。
  2、記錄的關鍵字位數較少,如果密集更好
  3、如果是數字時,最好是無符號的

5、氣泡排序演算法的改進

1).設定一標誌性變數pos,用於記錄每趟排序中最後一次進行交換的位置。由於pos位置之後的記錄均已交換到位,故在進行下一趟排序時只要掃描到pos位置即可。

2).傳統氣泡排序中每一趟排序操作只能找到一個最大值或最小值,我們考慮利用在每趟排序中進行正向和反向兩遍冒泡的方法一次可以得到兩個最終值(最大者和最小者) , 從而使排序趟數幾乎減少了一半。

6、鄰接矩陣與鄰接表

鄰接矩陣表示法:在一個一維陣列中儲存所有的點,在一個二維陣列中儲存頂點之間的邊的權值

鄰接表表示法:圖中頂點用一個一維陣列儲存,圖中每個頂點vi的所有鄰接點構成單連結串列

對比

1)在鄰接矩陣表示中,無向圖的鄰接矩陣是對稱的。矩陣中第 i 行或 第 i 列有效元素個數之和就是頂點的度。

在有向圖中 第 i 行有效元素個數之和是頂點的出度,第 i 列有效元素個數之和是頂點的入度。

2)在鄰接表的表示中,無向圖的同一條邊在鄰接表中儲存的兩次。如果想要知道頂點的度,只需要求出所對應連結串列的結點個數即可。

有向圖中每條邊在鄰接表中只出現一次,求頂點的出度只需要遍歷所對應連結串列即可。求入度則需要遍歷其他頂點的連結串列。

3)鄰接矩陣與鄰接表優缺點:

鄰接矩陣的優點是可以快速判斷兩個頂點之間是否存在邊,可以快速新增邊或者刪除邊。而其缺點是如果頂點之間的邊比較少,會比較浪費空間。因為是一個 n∗n 的矩陣。

而鄰接表的優點是節省空間,只儲存實際存在的邊。其缺點是關注頂點的度時,就可能需要遍歷一個連結串列。

7.用迴圈比遞迴效率高嗎?

遞迴和迴圈兩者完全可以互換。不能完全決定性地說迴圈地效率比遞迴的效率高。

1)遞迴演算法:

優點:程式碼簡潔、清晰,並且容易驗證正確性。

缺點:它的執行需要較多次數的函式呼叫,如果呼叫層數比較深,需要增加額外的堆疊處理(還有可能出現堆疊溢位的情況),比如引數傳遞需要壓棧等操作,會對執行效率有一定影響。但是,對於某些問題,如果不使用遞迴,那將是極端難看的程式碼。在編譯器優化後,對於多次呼叫的函式處理會有非常好的效率優化,效率未必低於迴圈。

2)迴圈演算法:

優點:速度快,結構簡單。

缺點:並不能解決所有的問題。有的問題適合使用遞迴而不是迴圈。如果使用迴圈並不困難的話,最好使用迴圈。

8、解決雜湊衝突的方法

雜湊表(Hash table,也叫雜湊表),是根據關鍵碼值(Key value)而直接進行訪問的資料結構。

1) 線性探測法

2) 平方探測法

3) 偽隨機序列法

4) 拉鍊法

9、KMP演算法:在一個字串中查詢是否包含目標的匹配字串。其主要思想是每趟比較過程讓子串先後滑動一個合適的位置。當發生不匹配的情況時,不是右移一位,而是移動(當前匹配的長度– 當前匹配子串的部分匹配值)位。

10、B樹

根據B類樹的特點,構造一個多階的B類樹,然後在儘量多的在結點上儲存相關的資訊,保證層數儘量的少,以便後面我們可以更快的找到資訊,磁碟的I/O操作也少一些,而且B類樹是平衡樹,每個結點到葉子結點的高度都是相同,這也保證了每個查詢是穩定的。

B樹和B+樹的區別,以一個m階樹為例。

關鍵字的數量不同;B+樹中分支結點有m個關鍵字,其葉子結點也有m個,其關鍵字只是起到了一個索引的作用,但是B樹雖然也有m個子結點,但是其只擁有m-1個關鍵字。
儲存的位置不同;B+樹中的資料都儲存在葉子結點上,也就是其所有葉子結點的資料組合起來就是完整的資料,但是B樹的資料儲存在每一個結點中,並不僅僅儲存在葉子結點上。
分支結點的構造不同;B+樹的分支結點僅僅儲存著關鍵字資訊和兒子的指標(這裡的指標指的是磁碟塊的偏移量),也就是說內部結點僅僅包含著索引資訊。
查詢不同;B樹在找到具體的數值以後,則結束,而B+樹則需要通過索引找到葉子結點中的資料才結束,也就是說B+樹的搜尋過程中走了一條從根結點到葉子結點的路徑
二 操作

相關文章