淺談演算法和資料結構(6):符號表及其基本實現

發表於2014-11-03

前面幾篇文章介紹了基本的排序演算法,排序通常是查詢的前奏操作。從本文開始介紹基本的查詢演算法。

在介紹查詢演算法,首先需要了解符號表這一抽象資料結構,本文首先介紹了什麼是符號表,以及這一抽象資料結構的的API,然後介紹了兩種簡單的符號表的實現方式。

一符號表

在開始介紹查詢演算法之前,我們需要定義一個名為符號表(Symbol Table)的抽象資料結構,該資料結構類似我們再C#中使用的Dictionary,他是對具有鍵值對元素的一種抽象,每一個元素都有一個key和value,我們可以往裡面新增key,value鍵值對,也可以根據key來查詢value。在現實的生活中,我們經常會遇到各種需要根據key來查詢value的情況,比如DNS根據域名查詢IP地址,圖書館根據索引號查詢圖書等等:

為了實現這一功能,我們定義一個抽象資料結構,然後選用合適的資料結構來實現:

public class ST<Key, Value>

ST() 建立一個查詢表物件
void Put(Key key, Value val) 往集合中插入一條鍵值對記錄,如果value為空,不新增
Value Get(Key key) 根據key查詢value,如果沒找到返回null
void Delete(Key key) 刪除鍵為key的記錄
boolean Contains(Key key) 判斷集合中是否存在鍵為key的記錄
boolean IsEmpty() 判斷查詢表是否為空
int Size() 返回集合中鍵值對的個數
Iterable<Key> Keys() 返回集合中所有的鍵

二實現

1 使用無序連結串列實現查詢表

查詢表的實現關鍵在於資料結構的選擇,最簡單的一種實現是使用無序連結串列來實現,每一個節點記錄key值,value值以及指向下一個記錄的物件。

如圖,當我們往連結串列中插入元素的時候,從表頭開始查詢,如果找到,則更新value,否則,在表頭插入新的節點元素。

實現起來也很簡單:

分析:

從圖或者程式碼中分析可知,插入的時候先要查詢,如果存在則更新value,查詢的時候需要從連結串列頭進行查詢,所以插入和查詢的平均時間複雜度均為O(n)。那麼有沒有效率更好的方法呢,下面就介紹二分查詢。

2 使用二分查詢實現查詢表

和採用無序連結串列實現不同,二分查詢的思想是在內部維護一個按照key排好序的二維陣列,每一次查詢的時候,跟中間元素進行比較,如果該元素小,則繼續左半部分遞迴查詢,否則繼續右半部分遞迴查詢。整個實現程式碼如下:

這裡面重點是Rank方法,我們可以看到首先獲取mid位置,然後將當前元素和mid位置元素比較,然後更新lo或者hi的位置用mid來替換,如果找到相等的,則直接返回mid,否則返回該元素在集合中應該插入的合適位置。上面是使用迭代的方式來實現的,也可以改寫為遞迴:

二分查詢的示意圖如下:

分析:

使用有序的二維陣列來實現查詢表可以看出,採用二分查詢只需要最多lgN+1次的比較即可找到對應元素,所以查詢效率比較高。

但是對於插入元素來說,每一次插入不存在的元素,需要將該元素放到指定的位置,然後,將他後面的元素依次後移,所以平均時間複雜度O(n),對於插入來說效率仍然比較低。

三 總結

本文介紹了符號表這一抽象資料結構,然後介紹了兩種基本實現:基於無序連結串列的實現和基於有序陣列的實現,兩種實現的時間複雜度如下:

可以看到,使用有序陣列的二分查詢法提高了符號表的查詢速度,但是插入效率仍舊沒有得到提高,而且在要維護陣列有序,還需要進行排序操作。這兩種實現方式簡單直觀,但是無法同時達到較高查詢和插入效率。那麼有沒有一種資料結構既能夠在查詢的時候有較高的效率,在插入的時候也有較好的效率呢,本文只是一個引子,後面的系列文章將會介紹二叉查詢樹,平衡查詢樹以及雜湊表。

希望本文對您瞭解查詢表的基本概念以及兩種基本實現有所幫助。

相關文章