跋山涉水 —— 深入 Redis 字典遍歷

老錢發表於2018-08-15

原文網址 : https://juejin.im/post/5b73aaec518825612d644a12

Redis 字典的遍歷過程邏輯比較複雜，網際網路上對這一塊的分析講解非常少。我也花了不少時間對原始碼的細節進行了整理，將我個人對字典遍歷邏輯的理解呈現給各位讀者。也許讀者們對字典的遍歷過程有比我更好的理解，還請不吝指教。

一邊遍歷一邊修改

我們知道 Redis 物件樹的主幹是一個字典，如果物件很多，這個主幹字典也會很大。當我們使用 keys 命令搜尋指定模式的 key 時，它會遍歷整個主幹字典。值得注意的是，在遍歷的過程中，如果滿足模式匹配條件的 key 被找到了，還需要判斷 key 指向的物件是否已經過期。如果過期了就需要從主幹字典中將該 key 刪除。

void keysCommand(client *c) {
    dictIterator *di; // 迭代器
    dictEntry *de; // 迭代器當前的entry
    sds pattern = c->argv[1]->ptr; // keys的匹配模式引數
    int plen = sdslen(pattern);
    int allkeys; // 是否要獲取所有key，用於keys *這樣的指令
    unsigned long numkeys = 0;
    void *replylen = addDeferredMultiBulkLength(c);

    // why safe? 
    di = dictGetSafeIterator(c->db->dict);
    allkeys = (pattern[0] == '*' && pattern[1] == '\0');
    while((de = dictNext(di)) != NULL) {
        sds key = dictGetKey(de);
        robj *keyobj;

        if (allkeys || stringmatchlen(pattern,plen,key,sdslen(key),0)) {
            keyobj = createStringObject(key,sdslen(key));
            // 判斷是否過期，過期了要刪除元素
            if (expireIfNeeded(c->db,keyobj) == 0) {
                addReplyBulk(c,keyobj);
                numkeys++;
            }
            decrRefCount(keyobj);
        }
    }
    dictReleaseIterator(di);
    setDeferredMultiBulkLength(c,replylen,numkeys);
}
複製程式碼

那麼，你是否想到了其中的困難之處，在遍歷字典的時候還需要修改字典，會不會出現指標安全問題？

重複遍歷

字典在擴容的時候要進行漸進式遷移，會存在新舊兩個 hashtable。遍歷需要對這兩個 hashtable 依次進行，先遍歷完舊的 hashtable，再繼續遍歷新的 hashtable。如果在遍歷的過程中進行了 rehashStep，將已經遍歷過的舊的 hashtable 的元素遷移到了新的 hashtable中，那麼遍歷會不會出現元素的重複？這也是遍歷需要考慮的疑難之處，下面我們來看看 Redis 是如何解決這個問題的。

迭代器的結構

Redis 為字典的遍歷提供了 2 種迭代器，一種是安全迭代器，另一種是不安全迭代器。

typedef struct dictIterator {
    dict *d; // 目標字典物件
    long index; // 當前遍歷的槽位置，初始化為-1
    int table; // ht[0] or ht[1]
    int safe; // 這個屬性非常關鍵，它表示迭代器是否安全
    dictEntry *entry; // 迭代器當前指向的物件
    dictEntry *nextEntry; // 迭代器下一個指向的物件
    long long fingerprint; // 迭代器指紋，放置迭代過程中字典被修改
} dictIterator;

// 獲取非安全迭代器，只讀迭代器，允許rehashStep
dictIterator *dictGetIterator(dict *d)
{
    dictIterator *iter = zmalloc(sizeof(*iter));

    iter->d = d;
    iter->table = 0;
    iter->index = -1;
    iter->safe = 0;
    iter->entry = NULL;
    iter->nextEntry = NULL;
    return iter;
}

// 獲取安全迭代器，允許觸發過期處理，禁止rehashStep
dictIterator *dictGetSafeIterator(dict *d) {
    dictIterator *i = dictGetIterator(d);

    i->safe = 1;
    return i;
}
複製程式碼

迭代器的「安全」指的是在遍歷過程中可以對字典進行查詢和修改，不用感到擔心，因為查詢和修改會觸發過期判斷，會刪除內部元素。「安全」的另一層意思是迭代過程中不會出現元素重複，為了保證不重複，就會禁止 rehashStep。

而「不安全」的迭代器是指遍歷過程中字典是隻讀的，你不可以修改，你只能呼叫 dictNext 對字典進行持續遍歷，不得呼叫任何可能觸發過期判斷的函式。不過好處是不影響 rehash，代價就是遍歷的元素可能會出現重複。

安全迭代器在剛開始遍歷時，會給字典打上一個標記，有了這個標記，rehashStep 就不會執行，遍歷時元素就不會出現重複。

typedef struct dict {
    dictType *type;
    void *privdata;
    dictht ht[2];
    long rehashidx;
    // 這個就是標記，它表示當前加在字典上的安全迭代器的數量
    unsigned long iterators;
} dict;

// 如果存在安全的迭代器，就禁止rehash
static void _dictRehashStep(dict *d) {
    if (d->iterators == 0) dictRehash(d,1);
}
複製程式碼

迭代過程

安全的迭代器在遍歷過程中允許刪除元素，意味著字典第一維陣列下面掛接的連結串列中的元素可能會被摘走，元素的 next 指標就會發生變動，這是否會影響迭代過程呢？下面我們仔細研究一下迭代函式的程式碼邏輯。

dictEntry *dictNext(dictIterator *iter)
{
    while (1) {
        if (iter->entry == NULL) {
            // 遍歷一個新槽位下面的連結串列，陣列的index往前移動了
            dictht *ht = &iter->d->ht[iter->table];
            if (iter->index == -1 && iter->table == 0) {
                // 第一次遍歷，剛剛進入遍歷過程
                // 也就是ht[0]陣列的第一個元素下面的連結串列
                if (iter->safe) {
                  // 給字典打安全標記，禁止字典進行rehash
                  iter->d->iterators++;
                } else {
                  // 記錄迭代器指紋，就好比字典的md5值
                  // 如果遍歷過程中字典有任何變動，指紋就會改變
                  iter->fingerprint = dictFingerprint(iter->d);
                }      
            }
            iter->index++; // index=0，正式進入第一個槽位
            if (iter->index >= (long) ht->size) {
                // 最後一個槽位都遍歷完了
                if (dictIsRehashing(iter->d) && iter->table == 0) {
                    // 如果處於rehash中，那就繼續遍歷第二個 hashtable
                    iter->table++;
                    iter->index = 0;
                    ht = &iter->d->ht[1];
                } else {
                    // 結束遍歷
                    break;
                }
            }
            // 將當前遍歷的元素記錄到迭代器中
            iter->entry = ht->table[iter->index];
        } else {
            // 直接將下一個元素記錄為本次迭代的元素
            iter->entry = iter->nextEntry;
        }
        if (iter->entry) {
            // 將下一個元素也記錄到迭代器中，這點非常關鍵
            // 防止安全迭代過程中當前元素被過期刪除後，找不到下一個需要遍歷的元素
            
            // 試想如果後面發生了rehash，當前遍歷的連結串列被打散了，會發生什麼
            // 這裡要使勁發揮自己的想象力來理解
            // 舊的連結串列將一分為二，打散後重新掛接到新陣列的兩個槽位下
            // 結果就是會導致當前連結串列上的元素會重複遍歷
            
            // 如果rehash的連結串列是index前面的連結串列，那麼這部分連結串列也會被重複遍歷
            iter->nextEntry = iter->entry->next;
            return iter->entry;
        }
    }
    return NULL;
}

// 遍歷完成後要釋放迭代器，安全迭代器需要去掉字典的禁止rehash的標記
// 非安全迭代器還需要檢查指紋，如果有變動，伺服器就會奔潰(failfast)
void dictReleaseIterator(dictIterator *iter)
{
    if (!(iter->index == -1 && iter->table == 0)) {
        if (iter->safe)
            iter->d->iterators--; // 去掉禁止rehash的標記
        else
            assert(iter->fingerprint == dictFingerprint(iter->d));
    }
    zfree(iter);
}

// 計算字典的指紋，就是將字典的關鍵欄位進行按位糅合到一起
// 這樣只要有任意的結構變動，指紋都會發生變化
// 如果只是某個元素的value被修改了，指紋不會發生變動
long long dictFingerprint(dict *d) {
    long long integers[6], hash = 0;
    int j;

    integers[0] = (long) d->ht[0].table;
    integers[1] = d->ht[0].size;
    integers[2] = d->ht[0].used;
    integers[3] = (long) d->ht[1].table;
    integers[4] = d->ht[1].size;
    integers[5] = d->ht[1].used;

    for (j = 0; j < 6; j++) {
        hash += integers[j];
        hash = (~hash) + (hash << 21);
        hash = hash ^ (hash >> 24);
        hash = (hash + (hash << 3)) + (hash << 8);
        hash = hash ^ (hash >> 14);
        hash = (hash + (hash << 2)) + (hash << 4);
        hash = hash ^ (hash >> 28);
        hash = hash + (hash << 31);
    }
    return hash;
}
複製程式碼

值得注意的是在字典擴容時進行rehash，將舊陣列中的連結串列遷移到新的陣列中。某個具體槽位下的連結串列只可能會遷移到新陣列的兩個槽位中。

hash mod 2^n = k
hash mod 2^(n+1) = k or k+2^n
複製程式碼

迭代器的選擇

除了keys指令使用了安全迭代器，因為結果不允許重複。那還有其它的地方使用了安全迭代器麼，什麼情況下遍歷適合使用非安全迭代器呢？

簡單一點說，那就是如果遍歷過程中不允許出現重複，那就使用SafeIterator，比如下面的兩種情況

bgaofrewrite需要遍歷所有物件轉換稱操作指令進行持久化，絕對不允許出現重複
bgsave也需要遍歷所有物件來持久化，同樣不允許出現重複

如果遍歷過程中需要處理元素過期，需要對字典進行修改，那也必須使用SafeIterator，因為非安全的迭代器是隻讀的。

其它情況下，也就是允許遍歷過程中出現個別元素重複，不需要對字典進行結構性修改的情況下一律使用非安全迭代器。

思考

請繼續思考rehash對非安全遍歷過程的影響，會重複哪些元素，重複的元素會非常多麼還是隻是少量重複？

微信掃一掃關注公眾號「碼洞」，一步兩步帶你「碼出個未來」。

Python字典的遍歷,包括key遍歷/value遍歷/item遍歷/
2020-12-07
Python
python---字典遍歷
2024-07-27
Python
Python字典遍歷的陷阱
2021-12-02
Python
python字典的四種遍歷方式
2024-07-11
Python
Python中的字典遍歷有序嗎？
2021-09-11
Python
Python中遍歷字典以及字典中的鍵和值
2024-03-26
Python
說說在 Python 中如何遍歷字典
2019-03-02
Python
[work] python巢狀字典的遞迴遍歷
2019-01-12
Python巢狀遞迴
Python優雅遍歷字典刪除元素的方法
2024-06-21
Python
第十二天 Python之字典遍歷-集合-函式
2020-11-13
Python函式
python迴圈遍歷字典： title_content_list.append([key, value])print(ti
2023-11-08
PythonAPP
js的map遍歷和array遍歷
2018-11-15
JS
遍歷 FlowDocument
2024-04-26
Linuxshell遍歷
2018-04-19
Linux
jQuery 遍歷
2022-08-01
jQuery
如何遍歷 HashMap，遍歷HashMap 的 5 種最佳方式
2020-10-18
HashMap
jQuery的遍歷結構設計之遍歷同胞
2019-04-02
jQuery
jQuery的遍歷結構設計之遍歷祖先
2019-03-22
jQuery
Redis中的字典
2020-10-15
Redis
陣列遍歷
2019-02-28
陣列
元組遍歷
2018-08-30
集合迭代/遍歷
2020-10-05
TDictionary 的遍歷
2024-11-29
jQuery 遍歷 – 祖先
2022-08-01
jQuery
jQuery 遍歷方法
2022-08-08
jQuery
資料遍歷
2020-12-13
jstl forEach遍歷
2020-11-25
JS
非遞迴實現先序遍歷和中序遍歷
2020-12-20
遞迴
Python中字典的順序問題（為什麼實踐發現字典的遍歷和方法popitem並不是隨機的？）
2018-10-27
Python隨機
DOM元素的遍歷
2019-04-14
Map迴圈遍歷
2018-08-13
記錄遍歷方法
2018-07-11
JavaScript Iterator遍歷器
2018-08-26
JavaScript
C++ 遍歷queue
2024-04-08
C++
如何遍歷HashMap集合？
2023-04-23
HashMap
JS中的遍歷
2019-11-20
JS
indexedDB 遍歷資料
2019-07-27
Index
陣列遍歷方法
2020-11-04
陣列