Redis的資料型別——探究竟

大愚Talk發表於2019-03-02

原文網址 : https://flycode.co/archives/276406

Redis資料型別

接上篇為什麼要用Redis，今天來聊聊具體的Redis資料型別與命令。本篇是深入理解Redis的一個重要基礎，請坐穩，前方長文預警。

本系列內容基於：redis-3.2.12

文中不會介紹所有命令，主要是工作中經常遇到的。

平時我們看的大部分資料，都是簡單粗暴的告訴我們這個命令幹嘛，那個命令需要幾個引數。這種方式只會知其然不知其所以然，本文從命令的時間複雜度到用途，再到對應型別在Redis低層採用何種結構儲存資料，希望讓大家認識的更深刻，使用時心裡更有底。

這裡在閱讀中請注意：雖然很多命令的時間複雜度都是O(n)，但要注意其n所代表的具體含義。
文中會用到 OBJECT ENCODING xxx 來檢查Redis的內部編碼，它其實是讀取的 redisObject 結構體中 encoding 所代表的值。redisObject 對不同型別的資料提供了統一的表現形式。

String型別

應該講這是Redis中使用的最廣泛的資料型別。該型別中的一些命令使用場景非常廣泛。比如：

快取，這是使用非常多的地方；
計數器/限速器技術；
共享Session伺服器也是基於該資料型別

注：表格中僅僅說明了String中的12個命令，使用場景也僅列舉了部分。

我們時常被人說教 MSET/MGET 這類命令少用，因為他們的時間複雜度是O(n)，但其實這裡注意，n表示的是本次設定或讀取的key個數，所以如果你批量讀取的key並不是很多，每個key的內容也不是很大，那麼使用批量操作命令反而能夠節省網路請求、傳輸的時間。

內部結構

String型別的資料最終是如何在Redis中儲存的呢？如果要細究的話，得先從 SDS 這個結構說起，不過今天先按下不表這原始碼部分的細節，只談其內部儲存的資料結構。最終我們設定的字串都會以三種形式中的一種被儲存下來。

Int，8個位元組的長整型，最大值是：0x7fffffffffffffffL
Embstr，小於等於44個位元組的字串
Raw

結合程式碼來看看Redis對這三種資料結構是如何決策的。當我們在客戶端使用命令 SET test hello,redis 時，客戶端會把命令儲存到一個buf中，然後按照收到的命令先後順序依次執行。這其中有一個函式是：processMultibulkBuffer() ，它內部呼叫了 createStringObject() 函式：

#define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44
robj *createStringObject(const char *ptr, size_t len) {
	  // 檢查儲存的字串長度，選擇對應型別
    if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT)
        return createEmbeddedStringObject(ptr,len);
    else
        return createRawStringObject(ptr,len);
}
複製程式碼

不懂C語言不要緊，這裡就是檢查我們輸入的字串 hello,redis 長度是否超過了 44 ，如果超過了用型別 raw ，沒有則選用 embstr 。實驗看看：

127.0.0.1:6379> SET test 12345678901234567890123456789012345678901234 // len=44
OK
127.0.0.1:6379> OBJECT encoding test
"embstr"
127.0.0.1:6379> SET test 123456789012345678901234567890123456789012345 // len=45
OK
127.0.0.1:6379> OBJECT encoding test
"raw"
複製程式碼

可以看到，一旦超過44，底層型別就變成了：raw 。等等，上面我們不是還提到有一個 int 型別嗎？從函式裡邊完全看不到它的蹤跡啊？不急，當我們輸入的這條命令真的要開始執行時，也就是呼叫函式 setCommand() 時，會觸發一個 tryObjectEncoding() 函式，這個函式的作用是試圖對輸入的字串進行壓縮，繼續看看程式碼：

robj *tryObjectEncoding(robj *o) {
    ... ...
    len = sdslen(s);
	  // 長度小於等於20，並且能夠轉成長整形
    if(len <= 20 && string2l(s,len,&value)) {
        o->encoding = OBJ_ENCODING_INT;
    }
    ... ...
}
複製程式碼

這個函式被我大幅縮水了，但是簡單我們能夠看到它判斷長度是否小於等於20，並且嘗試轉化成整型，看看例子。

9223372036854775807 是8位位元組可表示的最大整數，它的16進位制形式是：0x7fffffffffffffffL

127.0.0.1:6379> SET test 9223372036854775807
OK
127.0.0.1:6379> OBJECT encoding test
"int"
127.0.0.1:6379> SET test 9223372036854775808 // 比上面大1
OK
127.0.0.1:6379> OBJECT encoding test
"embstr"
複製程式碼

至此，關於String的型別選擇流程完畢了。這對我們的參考價值是，我們在使用String型別儲存資料時，要考慮到底層對應不同的型別，不同的型別在Redis內部會執行不同的流程，其所對應的執行效率、記憶體消耗都是不同的。

Hash型別

我們經常用它來儲存一個結構化的資料，比如與一個使用者相關的快取資訊。如果使用普通的String型別，需要對字串進行序列化與反序列化，無疑增加額外開銷，並且每次讀取都只能全部讀取出來。

快取結構化的資料，如：文章資訊，可靈活修改其某一個欄位，如閱讀量。

Hash型別儲存的結構話資料，非常像MySQL中的一條記錄，我們可以方便修改某一個欄位，但是它更具靈活性，每個記錄能夠含有不同的欄位。

內部結構

在內部Hash型別資料可能存在兩種型別的資料結構：

ZipList，更加節省空間，限制：key與field長度不超過64，key中field的個數不超過512個
HashTable

對於Hash，Redis 首先預設給它設定使用 ZipList 資料結構，後續根據條件進行判斷是否需要改變。


void hsetCommand(client *c) {
    int update;
    robj *o;

    if ((o = hashTypeLookupWriteOrCreate(c,c->argv[1])) == NULL) return;
    hashTypeTryConversion(o,c->argv,2,3);// 根據長度決策
    ... ...
    update = hashTypeSet(o,c->argv[2],c->argv[3]);// 根據元素個數決策
    addReply(c, update ? shared.czero : shared.cone);
    ... ...
}
複製程式碼

hashTypeLookupWriteOrCreate() 內部會呼叫 createHashObject() 建立Hash物件。

robj *createHashObject(void) {
    unsigned char *zl = ziplistNew();
    robj *o = createObject(OBJ_HASH, zl);
    o->encoding = OBJ_ENCODING_ZIPLIST;// 設定編碼 ziplist
    return o;
}
複製程式碼

hashTypeTryConversion() 函式內部根據是否超過 hash_max_ziplist_value 限制的長度（64），來決定低層的資料結構。

void hashTypeTryConversion(robj *o, robj **argv, int start, int end) {
    int i;

    if (o->encoding != OBJ_ENCODING_ZIPLIST) return;

    for (i = start; i <= end; i++) {
		  // 檢查 field 與 value 長度是否超長
        if (sdsEncodedObject(argv[i]) &&
            sdslen(argv[i]->ptr) > server.hash_max_ziplist_value)
        {
            hashTypeConvert(o, OBJ_ENCODING_HT);
            break;
        }
    }
}
複製程式碼

然後在函式 hashTypeSet() 中檢查field個數是否超過了 hash_max_ziplist_entries 的限制（512個）。

int hashTypeSet(robj *o, robj *field, robj *value) {
    int update = 0;

    if (o->encoding == OBJ_ENCODING_ZIPLIST) {
		  ... ...
        // 檢查field個數是否超過512
        if (hashTypeLength(o) > server.hash_max_ziplist_entries)
            hashTypeConvert(o, OBJ_ENCODING_HT);
    } else if (o->encoding == OBJ_ENCODING_HT) {
		  ... ...
    }
    ... ...
    return update;
}
複製程式碼

來驗證一下上面的邏輯：

127.0.0.1:6379> HSET test name qweqweqwkejkksdjfslfldsjfkldjslkfqweqweqwkejkksdjfslfldsjfkldjsl
(integer) 1
127.0.0.1:6379> HSTRLEN test name
(integer) 64
127.0.0.1:6379> OBJECT encoding test
"ziplist"
127.0.0.1:6379> HSET test name qweqweqwkejkksdjfslfldsjfkldjslkfqweqweqwkejkksdjfslfldsjfkldjslq
(integer) 0
127.0.0.1:6379> HSTRLEN test name
(integer) 65
127.0.0.1:6379> OBJECT encoding test
"hashtable"
複製程式碼

關於key設定超過64，以及field個數超過512的限制情況，大家可自行測試。

List型別

List型別的用途也是非常廣泛，主要概括下常用場景:

訊息佇列：LPUSH + BRPOP（阻塞特徵）
快取：使用者記錄各種記錄，最大特點是可支援分頁
棧：LPUSH + LPOP
佇列：LPUSH + RPOP
有限佇列：LPUSH + LTRIM，可以維持佇列中資料的數量

內部結構

List 的資料型別在低層實現有以下幾種：

QuickList：它是以ZipList為節點的LinkedList
ZipList（省記憶體），在3.2.12版本中發現有地方使用
LinkedList，在3.2.12版本中發現有地方使用

網路上有些文章說 LinkedList 在 Redis 4.0 之後的版本沒有再被使用，實際上我發現 Redis 3.2.12 版本中也沒有再使用該結構（不直接做為資料儲存結構），包括 ZipList 在 3.2.12 版本中都沒有再被直接用來儲存資料了。

我們做個實驗來驗證下，我們設定一個List中有 1000 個元素，每個元素value長度都超過 64 個字元。

127.0.0.1:6379> LLEN test
(integer) 1000
127.0.0.1:6379> OBJECT encoding test
"quicklist"
127.0.0.1:6379> LINDEX test 0
"qweqweqwkejkksdjfslfldsjfkldjslkfqweqweqwkejkksdjfslfldsjfkldjslq" // 65個字元
複製程式碼

無論我們是改變列表元素的個數以及元素值的長度，其結構都是 QuickList。還不信的話，我們來看看程式碼：

void pushGenericCommand(client *c, int where) {
    int j, waiting = 0, pushed = 0;
    robj *lobj = lookupKeyWrite(c->db,c->argv[1]);
	  ... ...
    for (j = 2; j < c->argc; j++) {
        c->argv[j] = tryObjectEncoding(c->argv[j]);
        if (!lobj) {
			  // 建立 quick list
            lobj = createQuicklistObject();
            quicklistSetOptions(lobj->ptr, server.list_max_ziplist_size,
                                server.list_compress_depth);
            dbAdd(c->db,c->argv[1],lobj);
        }
        listTypePush(lobj,c->argv[j],where);
        pushed++;
    }
    ... ...
}
複製程式碼

初始話時，呼叫 createQuicklistObject() 設定其低層資料結構是：quick list 。後續流程中沒有地方再對該結構進行轉化。

Set型別

Set 型別的重要特性之一是可以去重、無序。它集合的性質在社交上可以有廣泛的使用。

共同關注
共同喜好
資料去重

內部結構

Set低層實現採用了兩種資料結構：

IntSet，集合成員都是整數（不能超過最大整數）並且集合成員個數少於512時使用。
HashTable

該命令的程式碼如下，其中重要的兩個關於決定型別的呼叫是：setTypeCreate() 和 setTypeAdd()。

void saddCommand(client *c) {
    robj *set;
    ... ...
    if (set == NULL) {
		  // 初始化
        set = setTypeCreate(c->argv[2]);
    } else {
        ... ...
    }

    for (j = 2; j < c->argc; j++) {
		  // 內部會檢查元素個數是否擴充到需要改變低層結構
        if (setTypeAdd(set,c->argv[j])) added++;
    }
    ... ...
}
複製程式碼

來看下 Set 結構物件的初始建立程式碼：

robj *setTypeCreate(robj *value) {
    if (isObjectRepresentableAsLongLong(value,NULL) == C_OK)
        return createIntsetObject(); // 使用IntSet
    return createSetObject(); // 使用HashTable
}
複製程式碼

isObjectRepresentableAsLongLong() 內部判斷其整數範圍，如果是整數且沒有超過最大整數就會使用 IntSet 來儲存。否則使用 HashTable 。接著會檢查元素的個數。

int setTypeAdd(robj *subject, robj *value) {
    long long llval;
    if (subject->encoding == OBJ_ENCODING_HT) {
		 ... ...
    } else if (subject->encoding == OBJ_ENCODING_INTSET) {
        if (isObjectRepresentableAsLongLong(value,&llval) == C_OK) {
            uint8_t success = 0;
            subject->ptr = intsetAdd(subject->ptr,llval,&success);
            if (success) {
                /* Convert to regular set when the intset contains
                 * too many entries. */
                if (intsetLen(subject->ptr) > server.set_max_intset_entries)
                    setTypeConvert(subject,OBJ_ENCODING_HT);
                return 1;
            }
        } else {
            /* Failed to get integer from object, convert to regular set. */
            setTypeConvert(subject,OBJ_ENCODING_HT);
			  ... ...
            return 1;
        }
    }
	  ... ...
    return 0;
}
複製程式碼

看看例子，這裡以最大整數臨界值為例：

127.0.0.1:6379> SADD test 9223372036854775807
(integer) 1
127.0.0.1:6379> OBJECT encoding test
"intset"
127.0.0.1:6379> SADD test 9223372036854775808
(integer) 1
127.0.0.1:6379> OBJECT encoding test
"hashtable"
複製程式碼

關於集合個數的測試，請自行完成觀察。

SortSet型別

現在的應用，都有一些排行榜之類的功能，比如投資網站顯示投資金額排行，購物網站顯示消費排行等。SortSet非常適合做這件事。常用來解決以下問題：

各類排行榜
設定執行任務權重，後臺指令碼根據其排序順序執行相關操作
範圍查詢，查詢某個值在集合的哪個範圍

內部結構

雖然有序集合也是集合，但是低層的資料結構卻與Set不一樣，它也有兩種資料結構，分別是：

ZipList，當有序集合的元素個少於等於128或 member 的長度小於等於64的時候使用該結構
SkipList

這個轉變成過程如下：

void zaddGenericCommand(client *c, int flags) {
if (zobj == NULL) {
        if (xx) goto reply_to_client; /* No key + XX option: nothing to do. */
        if (server.zset_max_ziplist_entries == 0 ||
            server.zset_max_ziplist_value < sdslen(c->argv[scoreidx+1]->ptr))
        {
            zobj = createZsetObject();// skip list
        } else {
            zobj = createZsetZiplistObject();// zip list
        }
        dbAdd(c->db,key,zobj);
    } else {
        ... ...
    }
	  ... ...
    if (zobj->encoding == OBJ_ENCODING_ZIPLIST) {
        if (zzlLength(zobj->ptr) > server.zset_max_ziplist_entries)
            zsetConvert(zobj,OBJ_ENCODING_SKIPLIST);// 根據個數轉化編碼
        if (sdslen(ele->ptr) > server.zset_max_ziplist_value)
            zsetConvert(zobj,OBJ_ENCODING_SKIPLIST);// 根據長度轉化編碼
    }
}
複製程式碼

這裡以member長度超過64舉例：

127.0.0.1:6379> ZADD test 77 qwertyuiopqwertyuiopqwertyuiopqwertyuiopqwertyuiopqwertyuiopqwer // member長度是 64
(integer) 1
127.0.0.1:6379> OBJECT encoding test
"ziplist"
127.0.0.1:6379> ZADD test 77 qwertyuiopqwertyuiopqwertyuiopqwertyuiopqwertyuiopqwertyuiopqwerq // member長度是65
(integer) 1
127.0.0.1:6379> OBJECT encoding test
"skiplist"
複製程式碼

當我們member 超過64位長度時，低層的資料結構由 ZipList 轉變成了 SkipList。剩下的元素個數的測試，動動手試試看。

全域性常用命令

對於全域性命令，不管對應的key是什麼型別的資料，都是可以進行操作的。其中需要注意 KEYS 這個命令，不能用於線上，因為Redis單執行緒機制，如果記憶體中資料太多，會操作嚴重的阻塞，導致整個Redis服務都無法響應。

總結

Redis每種型別的命令時間複雜度不同，有的跟對應元素的個數有關係；有的跟請求個數有關係；
合理安排元素相關個數以及長度，爭取Redis底層採用最簡單的資料結構；
關注時間複雜度，瞭解自己的Redis內部元素情況，避免阻塞；
越簡單的資料，越能獲得更好的效能；
Redis每種資料型別低層都對應多種資料結構，修改與擴充套件對上層無感知。

第一篇講了為什麼要用Redis，本文又講了絕大部分命令吧，以及Redis原始碼中對它們的一些實現，後續開始關注具體實踐中的一些操作。希望對大家有幫助，期待任何形式的批評與鼓勵。

公眾號：dayuTalk

Redis資料型別
2020-12-30
Redis資料型別
【Redis】Redis的資料型別速查（5種基礎型別，5特殊型別）
2024-03-29
Redis資料型別
2、Redis的資料型別-string
2021-07-06
Redis資料型別
Redis資料型別基本操作
2018-11-09
Redis資料型別
【Redis】資料型別介紹
2023-05-10
Redis資料型別
Redis 資料型別及操作
2020-02-10
Redis資料型別
redis 支援哪些資料型別
2020-11-22
Redis資料型別
初識Redis的資料型別HyperLogLog
2020-06-15
Redis資料型別
[Redis] 淺談Redis內的幾種資料型別
2020-08-31
Redis資料型別
redis-資料型別及命令
2018-08-17
Redis資料型別
深入理解redis資料型別
2018-09-28
Redis資料型別
07 redis-資料型別 set
2020-10-31
Redis資料型別
Redis Hashes 資料型別簡述
2020-10-19
Redis資料型別
Redis 三種特殊資料型別
2020-09-18
Redis資料型別
Redis 筆記（核心資料型別）
2020-07-03
Redis筆記資料型別
Redis 中三種特殊的資料型別
2018-03-13
Redis資料型別
Redis 基本資料型別(Set) 的操作命令
2020-12-14
Redis資料型別
Redis 的 5 種資料型別的基本使用
2020-06-19
Redis資料型別
Redis學習筆記（二）——Redis資料型別
2018-08-18
Redis筆記資料型別
redis學習筆記2: Redis資料型別
2024-05-14
Redis筆記資料型別
《閒扯Redis九》Redis五種資料型別之Set型
2020-07-30
Redis資料型別
《閒扯Redis六》Redis五種資料型別之Hash型
2020-07-23
Redis資料型別
Redis基本資料型別命令彙總
2019-01-25
Redis資料型別
redis各資料型別應用概述
2019-01-19
Redis資料型別
Redis 基礎資料型別重溫
2021-10-19
Redis資料型別
Redis 高階資料型別重溫
2021-10-22
Redis資料型別
redis-22.高階資料型別
2021-03-04
Redis資料型別
redis-4.資料儲存型別
2021-01-12
Redis型別
Redis資料結構(一)-Redis的資料儲存及String型別的實現
2022-10-25
Redis資料結構型別
Redis基本資料型別底層資料結構
2021-12-01
Redis資料型別資料結構
Redis（三）--- Redis的五大資料型別的底層實現
2019-07-26
Redis大資料資料型別
Redis的五大資料型別實現原理
2021-08-26
Redis大資料資料型別
Redis基礎（一）資料結構與資料型別
2020-10-26
Redis資料結構資料型別
細談Redis五大資料型別
2019-09-25
Redis大資料資料型別
Redis 資料型別及常用命令
2020-10-05
Redis資料型別
Redis 三種特殊資料型別之 Hyperloglog
2020-09-18
Redis資料型別
Redis 三種特殊資料型別之 Bitmaps
2020-09-18
Redis資料型別
Redis系列-資料型別及使用場景
2024-11-22
Redis資料型別

Redis的資料型別——探究竟

String型別

內部結構

Hash型別

內部結構

List型別

內部結構

Set型別

內部結構

SortSet型別

內部結構

全域性常用命令

總結

相關文章