Redis雜湊表的實現要點

發表於2016-03-30

Redis雜湊表的實現要點

雜湊演算法的選擇

針對不同的key使用不同的hash演算法，如對整型、字串以及大小寫敏感的字串分別使用不同的hash演算法；

整型的Hash演算法使用的是Thomas Wang’s 32 Bit / 64 Bit Mix Function ，這是一種基於位移運算的雜湊方法。基於移位的雜湊是使用Key值進行移位操作。通常是結合左移和右移。每個移位過程的結果進行累加，最後移位的結果作為最終結果。這種方法的好處是避免了乘法運算，從而提高Hash函式本身的效能。

unsigned int dictIntHashFunction(unsigned int key)
{
    key += ~(key > 10);
    key +=  (key > 6);
    key += ~(key > 16);
    return key;
}

unsigned int dictIntHashFunction(unsigned int key)

{

key += ~(key > 10);

key += (key > 6);

key += ~(key > 16);

return key;

}

字串使用的MurmurHash演算法，MurmurHash演算法具有高運算效能，低碰撞率的特點，由Austin Appleby建立於2008年，現已應用到Hadoop、libstdc++、nginx、libmemcached等開源系統。2011年Appleby被Google僱傭，隨後Google推出其變種的CityHash演算法。

murmur是 multiply and rotate的意思，因為演算法的核心就是不斷的乘和移位（x *= m; k ^= k >> r;）

unsigned int dictGenHashFunction(const void *key, int len) {
    /* 'm' and 'r' are mixing constants generated offline.
     They're not really 'magic', they just happen to work well.  */
    uint32_t seed = dict_hash_function_seed;
    const uint32_t m = 0x5bd1e995;
    const int r = 24;

    /* Initialize the hash to a 'random' value */
    uint32_t h = seed ^ len;

    /* Mix 4 bytes at a time into the hash */
    const unsigned char *data = (const unsigned char *)key;

    while(len >= 4) {
        uint32_t k = *(uint32_t*)data;

        k *= m;
        k ^= k >> r;
        k *= m;

        h *= m;
        h ^= k;

        data += 4;
        len -= 4;
    }

    /* Handle the last few bytes of the input array  */
    switch(len) {
    case 3: h ^= data[2] > 13;
    h *= m;
    h ^= h >> 15;

    return (unsigned int)h;
}

unsigned int dictGenHashFunction(const void *key, int len) {

/* 'm' and 'r' are mixing constants generated offline.

They're not really 'magic', they just happen to work well. */

uint32_t seed = dict_hash_function_seed;

const uint32_t m = 0x5bd1e995;

const int r = 24;

/* Initialize the hash to a 'random' value */

uint32_t h = seed ^ len;

/* Mix 4 bytes at a time into the hash */

const unsigned char *data = (const unsigned char *)key;

while(len >= 4) {

uint32_t k = *(uint32_t*)data;

k *= m;

k ^= k >> r;

k *= m;

h *= m;

h ^= k;

data += 4;

len -= 4;

}

/* Handle the last few bytes of the input array */

switch(len) {

case 3: h ^= data[2] > 13;

h *= m;

h ^= h >> 15;

return (unsigned int)h;

}

一個好的hash演算法需要滿足兩個條件：

1) 效能高，運算足夠快；

2) 相鄰的資料hash後分布廣；即使輸入的鍵是有規律的，演算法仍然能給出一個很好的隨機分佈性；

比如：murmur計算”abc”是1118836419，”abd”是413429783。而使用Horner演算法，”abc”是96354， “abd”就比它多1（96355）；

rehash

負載因子 = 當前結點數/桶的大小，超過1表示肯定有碰撞了；碰撞的結點，通過連結串列拉鍊起來；

所有雜湊表的初始桶的大小為4，根據負載因子的變化進行rehash，重新分配空間（擴充套件或收縮）

當hash表的負載因子超過1後，進行擴充套件（小於0.01時，進行收縮）；

所謂擴充套件，就是新建一個hash表2，將桶的數量增大（具體增大為：第一個大於等於usedSize的2的n次冥）；然後將hash表1中結點都轉移到hash表2中；

rehash的觸發條件：

當做BGSAVE或BGREWRITEEOF時，負載因子超過5時觸發rehash，

沒有BGSAVE或BGREWRITEEOF時，負載因子超過1時觸發rehash；

在BGSAVE或BGREWRITEEOF時，使用到Linux的寫時複製，如果這時候做rehash，將會好用更多的記憶體空間（沒有變化的結點用一份，變化的結點複製一份）

漸進式rehash

一個hash表中的資料可能有幾百上千萬，不可能一次rehash轉移完，需要分批逐漸轉移；

在rehash的過程中，對redis的查詢、更新操作首先會在hash0中查詢，沒有找到，然後轉到hash1中操作；

對於插入操作，直接插入到hash1中；最終目標是將hash表1變為空表，rehash完成；

value的儲存

鍵值對的實現，value 是一個union，對整型和字串使用不同的儲存物件；

// 鍵
void *key;

// 值
union {
    void *val;
    uint64_t u64;
    int64_t s64;
} v;

// 鍵

void *key;

// 值

union {

void *val;

uint64_t u64;

int64_t s64;

} v;

ref：
《Hash 函式概覽》http://www.oschina.net/translate/state-of-hash-functions

《redis設計與實現》

深入理解雜湊表（JAVA和Redis雜湊表實現）
2017-02-01
JavaRedis
實現雜湊表
2015-05-27
JAVA 實現 - 雜湊表
2024-07-28
Java
雜湊表的兩種實現
2019-03-05
雜湊表的程式碼實現（Java）
2020-12-03
Java
Python 雜湊表的實現——字典
2023-11-24
Python
雜湊表（雜湊表）詳解
2018-02-28
用Objective-C實現雜湊表
2019-06-06
Object
PHP7 雜湊表實現原理
2016-11-22
PHP
雜湊表（雜湊表）原理詳解
2019-03-14
redis之雜湊
2018-03-23
Redis
資料結構與演算法——雜湊表類的C++實現(探測雜湊表)
2016-04-13
資料結構演算法C++
實現鍵值對儲存（五）：雜湊表實現
2014-12-12
雜湊表
2024-11-08
雜湊表知識點小結
2019-07-17
雜湊表的原理
2022-03-26
【尋跡#3】雜湊與雜湊表
2024-09-01
Redis命令——雜湊(Hash)
2018-11-11
Redis
資料結構與演算法——雜湊表類的C++實現(分離連結雜湊表)
2016-04-12
資料結構演算法C++
JavaScript資料結構——字典和雜湊表的實現
2019-08-06
JavaScript資料結構
雜湊表擴充套件—點陣圖
2018-03-02
套件
Redis的雜湊型別(Hash)
2016-10-30
Redis型別
雜湊表的C實現（三）---傳說中的暴雪版
2018-03-10
字串雜湊表
2020-10-08
字串
6.7雜湊表
2024-06-07
查詢(3)--雜湊表(雜湊查詢)
2014-02-22
C語言實現的資料結構之------雜湊表
2016-04-13
C語言資料結構
《閒扯Redis八》Redis字典的雜湊表執行Rehash過程分析
2020-07-28
Redis
Redis雜湊與有序集合
2019-01-07
Redis
幾道和雜湊（雜湊）表有關的面試題
2019-03-15
面試題
[CareerCup] 8.10 Implement a Hash Table 實現一個雜湊表
2015-09-16
雜湊表應用
2020-10-25
淺談雜湊表
2015-11-02
雜湊表：如何實現word編輯器的拼寫檢查？
2019-02-09
雜湊表(Hash)的應用
2014-12-16
符號表與雜湊表
2013-07-27
符號
Redis 入門 - 2（雜湊 + 列表）
2018-02-26
Redis
資料結構 - 雜湊表，三探之程式碼實現
2024-10-31
資料結構

Redis雜湊表的實現要點

Redis雜湊表的實現要點

雜湊演算法的選擇

rehash

漸進式rehash

value的儲存

相關文章