資料結構思維 第五章 雙連結串列

weixin_34075551發表於2017-09-01

第五章 雙連結串列

原文:Chapter 5 Doubly-linked list

譯者:飛龍

協議:CC BY-NC-SA 4.0

自豪地採用谷歌翻譯

本章回顧了上一個練習的結果,並介紹了List介面的另一個實現,即雙連結串列。

5.1 效能分析結果

在之前的練習中,我們使用了Profiler.java,執行ArrayListLinkedList的各種操作,它們具有一系列的問題規模。我們將執行時間與問題規模繪製在重對數比例尺上,並估計所得曲線的斜率,它表示執行時間和問題規模之間的關係的主要指數。

例如,當我們使用add方法將元素新增到ArrayList的末尾,我們發現,執行n次新增的總時間正比於n。也就是說,估計的斜率接近1。我們得出結論,執行n次新增是 O(n)的,所以平均來說,單個新增的時間是常數時間,或者O(1),基於演算法分析,這是我們的預期。

這個練習要求你填充profileArrayListAddBeginning的主體,它測試了,在ArrayList頭部新增一個新的元素的效能。根據我們的分析,我們預計每個新增都是線性的,因為它必須將其他元素向右移動;所以我們預計,n次新增是平方複雜度。

這是一個解決方案,你可以在倉庫的solution目錄中找到它。

public static void profileArrayListAddBeginning() {
    Timeable timeable = new Timeable() {
        List<String> list;

        public void setup(int n) {
            list = new ArrayList<String>();
        }

        public void timeMe(int n) {
            for (int i=0; i<n; i++) {
                list.add(0, "a string");
            }
        }
    };
    int startN = 4000;
    int endMillis = 10000;
    runProfiler("ArrayList add beginning", timeable, startN, endMillis);
}

這個方法幾乎和profileArrayListAddEnd相同。唯一的區別在於timeMe,它使用add的雙引數版本,將新元素置於下標0處。同樣,我們增加了endMillis,來獲取一個額外的資料點。

以下是時間結果(左側是問題規模,右側是執行時間,單位為毫秒):

4000, 14
8000, 35
16000, 150
32000, 604
64000, 2518
128000, 11555

圖 5.1 展示了執行時間和問題規模的圖形。

118142-29a6f1155e66802c.jpg

圖 5.1:分析結果:在ArrayList開頭新增n個元素的執行時間和問題規模

請記住,該圖上的直線並不意味著該演算法是線性的。相反,如果對於任何指數k,執行時間與n ** k成正比,我們預計會看到斜率為k的直線。在這種情況下,我們預計,n次新增的總時間與n ** 2成正比,所以我們預計會有一條斜率為2的直線。實際上,估計的斜率是1.992,非常接近。恐怕假資料才能做得這麼好。

5.2 分析LinkedList方法的效能

在以前的練習中,你還分析了,在LinkedList頭部新增新元素的效能。根據我們的分析,我們預計每個add都要花時間,因為在一個連結串列中,我們不必轉移現有元素;我們可以在頭部新增一個新節點。所以我們預計n次新增的總時間是線性的。

這是一個解決方案:

public static void profileLinkedListAddBeginning() {
    Timeable timeable = new Timeable() {
        List<String> list;

        public void setup(int n) {
            list = new LinkedList<String>();
        }

        public void timeMe(int n) {
            for (int i=0; i<n; i++) {
                list.add(0, "a string");
            }
        }
    };
    int startN = 128000;
    int endMillis = 2000;
    runProfiler("LinkedList add beginning", timeable, startN, endMillis);
}

我們只做了一些修改,將ArrayList替換為LinkedList並調整startNendMillis,來獲得良好的資料範圍。測量結果比上一批資料更加嘈雜;結果如下:

128000, 16
256000, 19
512000, 28
1024000, 77
2048000, 330
4096000, 892
8192000, 1047
16384000, 4755

圖 5.2 展示了這些結果的圖形。

118142-cf8c797f205458d8.jpg

圖 5.2:分析結果:在LinkedList開頭新增n個元素的執行時間和問題規模

並不是一條很直的線,斜率也不是正好是1,最小二乘擬合的斜率是1.23。但是結果表示,n次新增的總時間至少近似於O(n),所以每次新增都是常數時間。

5.3 LinkedList的尾部新增

在開頭新增元素是一種操作,我們期望LinkedList的速度快於ArrayList。但是為了在末尾新增元素,我們預計LinkedList會變慢。在我的實現中,我們必須遍歷整個列表來新增一個元素到最後,它是線性的。所以我們預計n次新增的總時間是二次的。

但是不是這樣。以下是程式碼:

public static void profileLinkedListAddEnd() {
    Timeable timeable = new Timeable() {
        List<String> list;

        public void setup(int n) {
            list = new LinkedList<String>();
        }

        public void timeMe(int n) {
            for (int i=0; i<n; i++) {
                list.add("a string");
            }
        }
    };
    int startN = 64000;
    int endMillis = 1000;
    runProfiler("LinkedList add end", timeable, startN, endMillis);
}

這裡是結果:

64000, 9
128000, 9
256000, 21
512000, 24
1024000, 78
2048000, 235
4096000, 851
8192000, 950
16384000, 6160

圖 5.3 展示了這些結果的圖形。

118142-862d57ee84e341ba.jpg

圖 5.2:分析結果:在LinkedList末尾新增n個元素的執行時間和問題規模

同樣,測量值很嘈雜,線不完全是直的,但估計的斜率為1.19,接近於在頭部新增元素,而並不非常接近2,這是我們根據分析的預期。事實上,它接近1,這表明在尾部新增元素是常數元素。這是怎麼回事?

5.4 雙連結串列

我的連結串列實現MyLinkedList,使用單連結串列;也就是說,每個元素都包含下一個元素的連結,並且MyArrayList物件本身具有第一個節點的連結。

但是,如果你閱讀LinkedList的文件,網址為 http://thinkdast.com/linked,它說:

ListDeque介面的雙連結串列實現。[...] 所有的操作都能像雙向列表那樣執行。索引該列表中的操作將從頭或者尾遍歷列表,使用更接近指定索引的那個。

如果你不熟悉雙連結串列,你可以在 http://thinkdast.com/doublelist 上閱讀更多相關資訊,但簡稱為:

  • 每個節點包含下一個節點的連結和上一個節點的連結。
  • LinkedList物件包含指向列表的第一個和最後一個元素的連結。

所以我們可以從列表的任意一端開始,並以任意方向遍歷它。因此,我們可以在常數時間內,在列表的頭部和末尾新增和刪除元素!

下表總結了ArrayListMyLinkedList(單連結串列)和LinkedList(雙連結串列)的預期效能:

MyArrayList MyLinkedList LinkedList
add(尾部) 1 n 1
add(頭部) n 1 1
add(一般) n n n
get/set 1 n n
indexOf/ lastIndexOf n n n
isEmpty/size 1 1 1
remove(尾部) 1 n 1
remove(頭部) n 1 1
remove(一般) n n n

5.5 結構的選擇

對於頭部插入和刪除,雙連結串列的實現優於ArrayList。對於尾部插入和刪除,都是一樣好。所以,ArrayList唯一優勢是getset,連結串列中它需要線性時間,即使是雙連結串列。

如果你知道,你的應用程式的執行時間取決於getset元素的所需時間,則ArrayList可能是更好的選擇。如果執行時間取決於在開頭或者末尾附加新增和刪除元素,LinkedList可能會更好。

但請記住,這些建議是基於大型問題的增長級別。還有其他因素要考慮:

  • 如果這些操作不佔用你應用的大部分執行時間 - 也就是說,如果你的應用程式花費大部分時間來執行其他操作 - 那麼你對List實現的選擇並不重要。
  • 如果你正在處理的列表不是很大,你可能無法獲得期望的效能。對於小型問題,二次演算法可能比線性演算法更快,或者線性可能比常數時間更快。而對於小型問題,差異可能並不重要。
  • 另外,別忘了空間。到目前為止,我們專注於執行時間,但不同的實現需要不同的空間。在ArrayList中,這些元素並排儲存在單個記憶體塊中,所以浪費的空間很少,並且計算機硬體通常在連續的塊上更快。在連結串列中,每個元素需要一個節點,帶有一個或兩個連結。連結佔用空間(有時甚至超過資料!),並且節點分散在記憶體中,硬體效率可能不高。

總而言之,演算法分析為資料結構的選擇提供了一些指南,但只有:

  • 你的應用的執行時間很重要,
  • 你的應用的執行時間取決於你選擇的資料結構,以及,
  • 問題的規模足夠大,增長級別實際上預測了哪個資料結構更好。

作為一名軟體工程師,在較長的職業生涯中,你幾乎不必考慮這種情況。

相關文章