CoreFX中Dictionary<TKey, TValue>的原始碼解讀

江月待何人發表於2023-11-14

原文網址 : https://www.cnblogs.com/pengze0902/p/17830689.html

　　無論是實際的專案中，還是在我們學習的過程中，都會重點的應用到Dictionary<TKey, TValue>這個儲存型別。每次對Dictionary<TKey, TValue>的新增都包含一個值和與其關聯的鍵，使用鍵檢索值的速度非常快，接近 O (1) ，因為 Dictionary<TKey, TValue> 類是作為雜湊表實現的。首先我們來從一個簡單的例子開始，以下是對一個字典的建立和賦值。

1 Dictionary<int, string> openWith = new Dictionary<int, string>();
2 openWith.Add(1000, "key值為1000");
3 openWith.Add(1001, "key值為1001");

相信絕大部分的開發人員對以上示例不是會陌生，那麼Dictionary<TKey, TValue>的實現原理是什麼樣的呢？在字典的初始化、賦值、取值、擴容的實現原理是什麼樣的呢？很多時候我們需要知其然，更需要知其所以然。接下來我們將從其記憶體的儲存的資料結構、取值的邏輯、擴容原則等幾個視角進行仔細的瞭解。那我們就沿著CoreFX中Dictionary<TKey, TValue>的實現原始碼來做一個簡單的學習和思考，這裡需要特別注意一下：

　　學習和分析原始碼時，不要先入為主，要按照框架和原始碼的邏輯進行解讀，記錄下不懂的地方重點分析，最後將整個邏輯串聯起來。如果我們一開始就設定了邏輯為A-B-C，但是讀到一個階段的時候發現變成了C-B-A，這個時候就無法再繼續進行下去，因為具體的實現過程中會有很多因素造成區域性調整，我們可以在解讀完畢之後，將實際的邏輯與個人前期理解的邏輯的差異進行比較，找出原因並做分析。

一、Dictionary<TKey, TValue>初始化

Dictionary<TKey, TValue>的構造方法較多，我們來看一下其中的基礎實現方法，首先看一下對應的原始碼（原始碼中不必要的部分已經做了部分刪減，保留了核心的實現邏輯）。

 1  public Dictionary(int capacity, IEqualityComparer<TKey>? comparer)
 2 {
 3     if (capacity > 0) Initialize(capacity);
 4     if (!typeof(TKey).IsValueType)
 5     {
 6        _comparer = comparer ?? EqualityComparer<TKey>.Default;
 7        if (typeof(TKey) == typeof(string) && NonRandomizedStringEqualityComparer.GetStringComparer(_comparer!) is IEqualityComparer<string> stringComparer)
 9        {
10          _comparer = (IEqualityComparer<TKey>)stringComparer;
11         }
12      }
13      else if (comparer is not null && comparer != EqualityComparer<TKey>.Default)
14      {
15         _comparer = comparer;
16      }
17 }

以上的實現邏輯重點包含了兩個部分，第一部分：對Dictionary<TKey, TValue>的容量初始化；第二部分是Dictionary<TKey, TValue>的IEqualityComparer? comparer的初始化，本文重點是對Dictionary<TKey, TValue>的儲存結構進行分析，涉及到比較器的實現邏輯，將放在後續的章節中進行重點介紹。

我們接下來看一下Initialize()的實現邏輯進行一個簡單的介紹，首先一起來看一下對應的原始碼實現(非必要部分已做刪減，方便大家可以直觀的檢視)。

 1 private int Initialize(int capacity)
 2 {
 3   int size = HashHelpers.GetPrime(capacity);
 4   int[] buckets = new int[size];
 5   Entry[] entries = new Entry[size];
 6   _freeList = -1;
 7 #if TARGET_64BIT
 8   _fastModMultiplier = HashHelpers.GetFastModMultiplier((uint)size);
 9 #endif
10   _buckets = buckets;
11   _entries = entries;
12   return size;
13 }

從上面的原始碼可以看出，根據傳入的capacity引數來設定字典對應的相關容量大小，其中包含兩部分，第一部分：根據設定的容量(capacity)大小，計算對應的buckets和entries大小，關於為什麼使用buckets和entries兩個陣列結構，我們將在下一節重點介紹；第二部分：判斷當前機器的位數，計算對應的_fastModMultiplier。我們看一下HashHelpers.GetPrime(capacity)的計算邏輯。(該類在System.Collections名稱空間下，其對應的型別定義為：internal static partial class HashHelpers)

 1 public static int GetPrime(int min)
 2 {
 3   foreach (int prime in Primes)
 4   {
 5     if (prime >= min) return prime;
 6     for (int i = (min | 1); i < int.MaxValue; i += 2)
 7     {
 8         if (IsPrime(i) && ((i - 1) % HashPrime != 0)) return i;
 9      }
10      return min;
11    }
12 }

HashHelpers用於計算和維護雜湊表容量的素數值，為什麼雜湊表需要使用素數？主要是為了減少雜湊衝突（hash collisions）的發生，素數的選擇能夠減少共同的因子，減小雜湊衝突的可能性。此外，選擇素數還能夠確保在雜湊表的容量變化時，不容易出現過多的重複。如果容量選擇為一個合數（非素數），那麼在容量變化時，可能會導致新容量與舊容量有相同的因子，增加雜湊衝突的風險。

　　接下來我們沿著GetPrime()的呼叫關係來看整個雜湊表容量的計算邏輯，HashHelpers設定了一個Primes[]的只讀素數陣列，具體的元素如下，至於什麼使用這樣的素數的陣列，主要是這些素數在實踐中已經被證明是有效的，適用於許多常見的使用場景，更多的是有助於在雜湊表等資料結構中提供更好的效能。

1 internal static ReadOnlySpan<int> Primes => new int[]
2 {
3   3, 7, 11, 17, 23, 29, 37, 47, 59, 71, 89, 107, 131, 163, 197, 239, 293, 353, 431, 521, 631, 761, 919,
4   1103, 1327, 1597, 1931, 2333, 2801, 3371, 4049, 4861, 5839, 7013, 8419, 10103, 12143, 14591,
5   17519, 21023, 25229, 30293, 36353, 43627, 52361, 62851, 75431, 90523, 108631, 130363, 156437,
6   187751, 225307, 270371, 324449, 389357, 467237, 560689, 672827, 807403, 968897, 1162687, 1395263,
7   1674319, 2009191, 2411033, 2893249, 3471899, 4166287, 4999559, 5999471, 7199369
8 };

GetPrime()會首先迴圈Primes[]，依次判斷設定的min大小與素數表元素的關係，若素數表中的元素大於min，則直接去對應的素數，無需後續的計算，如果設定的min不在預定的素數表中，則進行素數的計算。關於素數的計算邏輯，藉助本文開頭的Dictionary<TKey, TValue>的定義和賦值進行說明，首先對min和1進行按位或運算，初始化過程中未對capacity賦值時，則(min | 1)為1，對進行位運算後的i值校驗是否符合素數定義，再進行((i - 1) % HashPrime != 0)運算，其中HashPrime = 101，用於在雜湊演演算法中作為質數因子(101是一個相對小的質數，可以減少雜湊碰撞的可能性，並且在計算雜湊時更加高效)，對於初始化未設定容量的Dictionary<TKey, TValue>，計算獲取得到的容量為int size=3。(即3*4*8=72(bit))

(注意：對於已設定了capacity的Dictionary，按照以上的邏輯進行計算對應的size值。這裡就不再做過多介紹）

計算獲取到size值後，設定空閒列表為-1(_freeList = -1)。根據編譯時的執行機器的位數進行分類處理，若機器為非64位，則對buckets和entries兩個陣列進行初始化。若機器為64位是，則需要進行重新計算，獲取_fastModMultiplier，其計算邏輯如下：

public static ulong GetFastModMultiplier(uint divisor) => ulong.MaxValue / divisor + 1;

以上的計算結果返回除數的近似倒數，計算用於快速取模運算的乘法因子。

　　透過以上的計算過程，我們可以對Dictionary<TKey, TValue>的容量計算有一個簡單的認識，接下來我們來具體看一下用於儲存資料和雜湊索引的兩個陣列。

二、Dictionary<TKey, TValue>的儲存基礎結構

對於Dictionary<TKey, TValue>的兩個重要陣列buckets和entries，我們來具體的分析一下。首先來看一下Entry[]?_entries的實際的資料結構：

1 private struct Entry
2 {
3   public uint hashCode;
4   public int next;
5   public TKey key;
6   public TValue value;
7 }

在Dictionary<TKey, TValue>中實際儲存資料的結構是Entry[]，其中陣列的每個元素是一個Entry，該型別為一個結構體，用於在雜湊表內部儲存每個鍵值對的資訊，其中定義的key和value則是我們在設定字典時新增的鍵值對，那麼對於另外兩個屬性需要重點分析一下。

hashCode為在新增key時，將key進行計算獲取得到的雜湊值，雜湊值的計算過程中，需要對key進行按類別進行計算，C#中對數值型別、字串、結構體、物件的雜湊值計算邏輯都不相同，其中對於"數值型別"的雜湊值計算邏輯為"數字型別的雜湊碼生成邏輯通常是將數字型別的值轉換為整數，然後將該整數作為雜湊碼。"對於字串的雜湊值計算邏輯為"預設的字串雜湊碼計算方式採用了所謂的“Jenkins One-at-a-Time Hash”演演算法的變體。"對於結構體和物件的雜湊值計算邏輯就不做具體介紹。

next通常用於處理雜湊衝突，即多個鍵具有相同的雜湊碼的情況。next是一個索引，指向雜湊表中下一個具有相同雜湊碼的元素。其中next=-1時，表示連結串列結束；next=-2 表示空閒列表的末尾，next=-3 表示在空閒列表上的索引 0，next=-4 表示在空閒列表上的索引 1，後續則依次類推。

　　Entry透過使用結構體而不是類，可以減少記憶體開銷，因為結構體是值型別，而類是引用型別。結構體在棧上分配，而類在堆上分配。

以上介紹了Entry的結構和對應的屬性欄位，接下來我們再來看一下int[] buckets的結構和計算邏輯，buckets是一個簡單的int型別的陣列，這樣的陣列通常用於儲存雜湊桶的資訊。每個桶實際上是一個索引，指向一個連結串列或連結串列的頭部，用於解決雜湊衝突。

1  private ref int GetBucket(uint hashCode)
2 {
3    int[] buckets = _buckets!;
4  #if TARGET_64BIT
5    return ref buckets[HashHelpers.FastMod(hashCode, (uint)buckets.Length, _fastModMultiplier)];
6  #else
7    return ref buckets[(uint)hashCode % buckets.Length];
8  #endif
9  }

GetBucket()用於在雜湊表中獲取桶索引，其中引數hashCode為key對應的雜湊碼，在64位目標體系結構下，使用 HashHelpers.FastMod 方法進行快速模運算，而在32位目標體系結構下，使用普通的取模運算。那麼為什麼在Dictionary<TKey, TValue>中維護一個用來儲存雜湊表的桶呢？主要有以下4個目的：

(1)、解決雜湊衝突：兩個或多個不同的鍵經過雜湊函式得到相同的雜湊碼，導致它們應該儲存在雜湊表的相同位置。透過使用桶，可以在同一個位置儲存多個元素，解決了雜湊衝突的問題。

(2)、提供快速查詢：透過雜湊函式計算鍵的雜湊碼，然後將元素儲存在雜湊表的桶中，可以在常數時間內（平均情況下）定位到儲存該元素的位置，實現快速的查詢。

(3)、支援高效的插入和刪除：當插入元素時，透過雜湊函式確定元素應該儲存的桶，然後將其新增到桶的連結串列或其他資料結構中。當刪除元素時，同樣可以快速定位到儲存元素的桶，並刪除該元素。

(4)、平衡負載：雜湊表的效能與負載因子相關，而負載因子是元素數量與桶數量的比值。使用適當數量的桶可以幫助平衡負載，防止雜湊表變得過度擁擠，從而保持其效能。在不同的雜湊表實現可能使用不同的資料結構，如連結串列、樹等，C#的Dictionary中使用一個int[]維護這個雜湊表的桶索引。

三、Dictionary<TKey, TValue>的TryAdd的實現方式

以上主要介紹了Dictionary<TKey, TValue>的初始化、資料對應的儲存和雜湊表桶索引的儲存結構，現在我們具體看一下Dictionary<TKey, TValue>的新增元素的實現方式，下面對C#的實現程式碼進行了精簡，刪除當前並不關注的部分。

本文例項中對key賦值的為整數型別，部分對於非數值型別、除錯程式碼等進行刪減。(由於對於物件或者設定了比較器邏輯相對繁瑣，將在下文中進行介紹)

private bool TryInsert(TKey key, TValue value, InsertionBehavior behavior)
{
  Entry[]? entries = _entries;
  uint hashCode = (uint) key.GetHashCode() ;
  uint collisionCount = 0;
  ref int bucket = ref GetBucket(hashCode);
  int i = bucket - 1;
  int index;
  if (_freeCount > 0)
  {
    index = _freeList;
    _freeList = StartOfFreeList - entries[_freeList].next;
    _freeCount--;
  }
  else
  {
    int count = _count;
    if (count == entries.Length)
    {
       Resize();
       bucket = ref GetBucket(hashCode);
     }
     index = count;
     _count = count + 1;
      entries = _entries;
   }
   
   ref Entry entry = ref entries![index];
   entry.hashCode = hashCode;
   entry.next = bucket - 1; 
   entry.key = key;
   entry.value = value;
   bucket = index + 1; 
   _version++;
   
 return true;
}

以上的原始碼中的實現邏輯中核心包含3個部分，分別是計算hashCode、計算雜湊表桶索引的bucket、Dictionary擴容，上一節中已經介紹了前兩個實現邏輯，本節重點介紹Dictionary<TKey, TValue>的擴容邏輯，我們來看一下Resize()的實現邏輯。

 1 private void Resize() => Resize(HashHelpers.ExpandPrime(_count), false);
 2 
 3 private void Resize(int newSize, bool forceNewHashCodes)
 4 {
 5    Entry[] entries = new Entry[newSize];
 6    int count = _count;
 7    Array.Copy(_entries, entries, count);
 8    _buckets = new int[newSize];
 9 #if TARGET_64BIT
10    _fastModMultiplier = HashHelpers.GetFastModMultiplier((uint)newSize);
11 #endif
12    for (int i = 0; i < count; i++)
13    {
14       if (entries[i].next >= -1)
15       {
16         ref int bucket = ref GetBucket(entries[i].hashCode);
17         entries[i].next = bucket - 1;
18         bucket = i + 1;
19        }
20     }
21    _entries = entries;
22 }

由以上的原始碼(不涉及數值型別的部分做了刪減)可以看出，HashHelpers.ExpandPrime(_count)計算新的Entry[]大小，那我們來具體看一下這個新的陣列大小的計算邏輯是如何實現的。

1 public static int ExpandPrime(int oldSize)
2 {
3    int newSize = 2 * oldSize;
4    if ((uint)newSize > MaxPrimeArrayLength && MaxPrimeArrayLength > oldSize) return MaxPrimeArrayLength;
5    return GetPrime(newSize);
6 }

對於新的entries陣列的擴容，首先按照原始陣列大小*2，那麼對於能夠擴容的最大數值為MaxPrimeArrayLength=0x7FFFFFC3，對應32位元組的最大值。計算新的陣列大小時，會基於原始陣列2倍的情況下，再取對應的最少素數相乘，即：realSize=2*oldSize*y(素數表中的最少素數)。

　　【備註：其實在整個C#的擴容邏輯中，絕大數大都是按照2倍進行擴容(按照2倍擴容的方式存在一定的弊端，假設第n次擴容分配了2^n的空間（省略常數C），那麼之前釋放掉的空間總和為：1 + 2 + 2^2 + ... + 2^(n-1) = 2^n - 1 正好放不下2^n的空間。這樣導致的結果就是需要作業系統不斷分配新的記憶體頁，並且陣列的首地址也在不斷變大，造成快取缺失。】

Array.Copy(_entries, entries, count)擴容後的新陣列會將對舊陣列進行Copy()操作，在C#中每次對陣列進行擴容時，都是將就陣列的元素全部複製到新的陣列中，這個過程是比較耗時和浪費資源，如果在實際的開發過程中提前計算好陣列的容量，可以極大限度的提升效能，降低GC的活動頻率。

其中對於初始化為設定Dictionary的capacity時，第一次插入元素時，C#會對兩個陣列進行初始化，其中size=3，即維護的素數表中的最小值，後續超過該陣列大小後，會按照以上的擴容邏輯進行擴容。

四、Dictionary<TKey, TValue>的FindValue的實現方式

介紹完畢Dictionary<TKey, TValue>的元素插入後，我們接下來看一下Dictionary<TKey, TValue>的查詢邏輯，在Dictionary<TKey, TValue>中實現查詢邏輯的核心方法是FindValue()，首先我們來看一下其實現的原始碼。

 1 internal ref TValue FindValue(TKey key)
 2 {
 3   ref Entry entry = ref Unsafe.NullRef<Entry>();
 4   if (_buckets != null)
 5   {
 6     uint hashCode = (uint)key.GetHashCode();
 7     int i = GetBucket(hashCode);
 8     Entry[]? entries = _entries;
 9     uint collisionCount = 0;
10     i--; 
11     do
12       {
13         if ((uint)i >= (uint)entries.Length)
14         {
15            goto ReturnNotFound;
16         }
17         entry = ref entries[i];
18         if (entry.hashCode == hashCode && EqualityComparer<TKey>.Default.Equals(entry.key, key))
19         {
20            goto ReturnFound;
21         }
22         i = entry.next;
23         collisionCount++;
24       } while (collisionCount <= (uint)entries.Length);
25          goto ConcurrentOperation;
26     }
27       goto ReturnNotFound;
28        ConcurrentOperation:
29             ThrowHelper.ThrowInvalidOperationException_ConcurrentOperationsNotSupported();
30         ReturnFound:
31             ref TValue value = ref entry.value;
32         Return:
33             return ref value;
34         ReturnNotFound:
35             value = ref Unsafe.NullRef<TValue>();
36             goto Return;
37 }

以上的原始碼中，對於計算hashCode和計算雜湊索引的桶的邏輯就不再贅述，重點關注entry.hashCode == hashCode &&EqualityComparer.Default.Equals(entry.key, key))，在FindValue()中，對已經快取的Entry[]? entries進行迴圈遍歷，然後依次進行比較，其中比較的邏輯包含兩部分。在判斷取值key時，不僅需要判斷傳入key值的hashCode與對應Entry[]? entries中的元素的hashCode值相等，還需要判斷key是否相同，透過EqualityComparer.Default.Equals(entry.key, key)進行比較，關於比較器的邏輯將在下一章中進行介紹。

五、學在最後的思考和感悟

上面介紹了Dictionary<TKey, TValue>的初始化、元素插入、元素插入時的擴容、元素取值的部分邏輯，我們可以發現在Dictionary<TKey, TValue>中維護了nt[] buckets和Entry[]? _entries兩個陣列，其中用於儲存資料的結構為Entry[]? _entries，這個型別為一個結構體，在C#中結構體佔用的記憶體要小於一個物件的記憶體佔用。無論多麼複雜的儲存結構，其內部會盡量將其簡化為一個陣列，然後透過陣列的儲存和讀取特性進行最佳化，規避了陣列在某方面的不足，發揮了其優勢。

以上的部分思考中，我們其實可以發現在實際的編碼過程中，需要注意的幾個事項：

(1)、建立儲存結構時，需要思考其對應的儲存場景和物件，儘量選擇合適的結構進行處理，降低記憶體的佔用情況。

(2)、對於儲存結構，儘量可以提前指定容量，避免頻繁的擴容，每次擴容都會伴隨陣列的複製。

(3)、C#的擴容機制都是按照擴容2倍，在hash儲存結構中，還會按照維護的素數表進行個性化的計算最佳化。

(4)、解讀原始碼時，可以先選擇一個簡單的場景，儘量剔除與需要驗證場景無關的程式碼，集中核心邏輯進行分析，然後再逐步進行擴充套件思考。

以上內容是對CoreFx中Dictionary<TKey, TValue>的儲存和讀取邏輯的簡單介紹，如錯漏的地方，還望指正。

c# Dictionary<TKey,TValue>.TryAdd
2024-05-08
C#
深入解讀Dictionary
2020-06-28
Swift標準庫原始碼閱讀筆記 - Dictionary
2018-07-06
Swift原始碼筆記
etcd中watch原始碼解讀
2021-07-21
原始碼
go中panic原始碼解讀
2021-04-23
Go原始碼
go中waitGroup原始碼解讀
2021-03-07
GoAI原始碼
go中errgroup原始碼解讀
2021-03-08
Go原始碼
.net原始碼分析 – Dictionary泛型
2018-11-30
原始碼泛型
vue原始碼中computed和watch的解讀
2022-01-01
Vue原始碼
Laravel 原始碼的解讀
2020-01-02
Laravel原始碼
從Dictionary原始碼看雜湊表
2019-08-14
原始碼
Java-HashMap中put原始碼解讀
2024-06-21
JavaHashMap原始碼
go 中 sort 如何排序，原始碼解讀
2022-03-06
Go排序原始碼
go中sync.Mutex原始碼解讀
2021-03-15
GoMutex原始碼
PostgreSQL 原始碼解讀（3）- 如何閱讀原始碼
2018-08-02
SQL原始碼
Laravel 原始碼解讀
2019-03-29
Laravel原始碼
reselect原始碼解讀
2019-03-03
原始碼
Swoft 原始碼解讀
2019-02-16
原始碼
Seajs原始碼解讀
2019-03-04
JS原始碼
ReentrantLock原始碼解讀
2018-11-24
ReentrantLock原始碼
MJExtension原始碼解讀
2018-11-29
原始碼
Axios 原始碼解讀
2019-04-16
iOS原始碼
SDWebImage原始碼解讀
2019-01-18
Web原始碼
MJRefresh原始碼解讀
2018-12-06
原始碼
Handler原始碼解讀
2019-02-26
原始碼
LifeCycle原始碼解讀
2018-10-15
原始碼
LinkedHashMap原始碼解讀
2018-07-11
HashMap原始碼
ConcurrentHashMap原始碼解讀
2018-07-12
HashMap原始碼
Redux原始碼解讀
2018-05-01
Redux原始碼
ThreadLocal原始碼解讀
2018-04-26
thread原始碼
WeakHashMap，原始碼解讀
2019-09-07
HashMap原始碼
ThreadLocal 原始碼解讀
2019-04-01
thread原始碼
Masonry原始碼解讀
2018-12-28
原始碼
ZooKeeper原始碼解讀
2024-06-15
原始碼
HashMap原始碼解讀
2018-03-23
HashMap原始碼
FairyGUI原始碼解讀
2024-10-29
AIGUI原始碼
通過.net core原始碼看下Dictionary的實現
2019-01-16
原始碼
【C++】【原始碼解讀】std::is_same函式原始碼解讀
2022-02-09
C++原始碼函式

CoreFX中Dictionary<TKey, TValue>的原始碼解讀

相關文章