C#中Dictionary的內部實現剖析

獨上高樓發表於2015-07-27

瞭解Dictionary的開發人員都瞭解,和List相比,字典新增會慢,但是查詢會比較快,那麼Dictionary是如何實現的呢?

Dictionary的構造

下面的程式碼我看看Dictionary在構造時都做了什麼:

private void Initialize(int capacity)
        {
            int prime = HashHelpers.GetPrime(capacity);
            this.buckets = new int[prime];
            for (int i = 0; i < this.buckets.Length; i++)
            {
                this.buckets[i] = -1;
            }
            this.entries = new Entry<TKey, TValue>[prime];
            this.freeList = -1;
        }

我們看到,Dictionary在構造的時候做了以下幾件事:

  1. 初始化一個this.buckets = new int[prime]
  2. 初始化一個this.entries = new Entry<TKey, TValue>[prime]
  3. Bucket和entries的容量都為大於字典容量的一個最小的質數

其中this.buckets主要用來進行Hash碰撞,this.entries用來儲存字典的內容,並且標識下一個元素的位置。

我們以Dictionary<int,string> 為例,來展示一下Dictionary如何新增元素:

首先,我們構造一個:

Dictionary<int, string> test = new Dictionary<int, string>(6);

初始化後:

檢視大圖

新增元素時,集合內部Bucket和entries的變化

Test.Add(4,”4″)後:

根據Hash演算法: 4.GetHashCode()%7= 4,因此碰撞到buckets中下標為4的槽上,此時由於Count為0,因此元素放在Entries中第0個元素上,新增後Count變為1

檢視大圖

Test.Add(11,”11″)

根據Hash演算法 11.GetHashCode()%7=4,因此再次碰撞到Buckets中下標為4的槽上,由於此槽上的值已經不為-1,此時Count=1,因此把這個新加的元素放到entries中下標為1的陣列中,並且讓Buckets槽指向下標為1的entries中,下標為1的entry之下下標為0的entries。

檢視大圖

Test.Add(18,”18″)

我們新增18,讓HashCode再次碰撞到Buckets中下標為4的槽上,這個時候新元素新增到count+1的位置,並且Bucket槽指向新元素,新元素的Next指向Entries中下標為1的元素。此時你會發現所有hashcode相同的元素都形成了一個連結串列,如果元素碰撞次數越多,連結串列越長。所花費的時間也相對較多。

檢視大圖

Test.Add(19,”19″)

再次新增元素19,此時Hash碰撞到另外一個槽上,但是元素仍然新增到count+1的位置。

檢視大圖

刪除元素時集合內部的變化

Test.Remove(4)

我們刪除元素時,通過一次碰撞,並且沿著連結串列尋找3次,找到key為4的元素所在的位置,刪除當前元素。並且把FreeList的位置指向當前刪除元素的位置,FreeCount置為1

檢視大圖

Test.Remove(18)

刪除Key為18的元素,仍然通過一次碰撞,並且沿著連結串列尋找2次,找到當前元素,刪除當前元素,並且讓FreeList指向當前元素,當前元素的Next指向上一個FreeList元素。

此時你會發現FreeList指向了一個連結串列,連結串列裡面不包含任何元素,FreeCount表示不包含元素的連結串列的長度。

檢視大圖

Test.Add(20,”20″)

再新增一個元素,此時由於FreeList連結串列不為空,因此字典會優先新增到FreeList連結串列所指向的位置,新增後FreeCount減1,FreeList連結串列長度變為1

檢視大圖

總結:

通過以上試驗,我們可以發現Dictionary在新增,刪除元素按照如下方法進行:

  1. 通過Hash演算法來碰撞到指定的Bucket上,碰撞到同一個Bucket槽上所有資料形成一個單連結串列
  2. 預設情況Entries槽中的資料按照新增順序排列
  3. 刪除的資料會形成一個FreeList的連結串列,新增資料的時候,優先向FreeList連結串列中新增資料,FreeList為空則按照count依次排列
  4. 字典查詢及其的效率取決於碰撞的次數,這也解釋了為什麼Dictionary的查詢會很快。

好吧,熬了半宿,今天先寫到這了,如果看了有所收穫就幫忙頂一下,有問題歡迎拍磚。

相關文章