Redis的字串物件筆記

Yuicon發表於2019-04-08

字串物件

字串資料型別是Redis裡最常用的型別了,它的鍵和值都是字串,使用起來非常的方便。雖然字串資料型別的值都統稱為字串了,但是在實際儲存時會根據值的不同自動選擇合適的編碼。字串物件的編碼一共有三種:intrawembstr

Redis物件

Redis用統一的資料結構來表示一個物件,具體定義如下:

typedef struct redisObject {
    unsigned type:4;
    unsigned encoding:4;
    // 當記憶體超限時採用LRU演算法清除記憶體中的物件
    unsigned lru:LRU_BITS; /* LRU time (relative to global lru_clock) or
                            * LFU data (least significant 8 bits frequency
                            * and most significant 16 bits access time). */
    // 該物件被引用數
    int refcount;
    // 物件的值指標
    void *ptr;
} robj;
複製程式碼

其中type欄位代表物件的型別,取值一共有7種:

/* A redis object, that is a type able to hold a string / list / set */

/* The actual Redis Object */
#define OBJ_STRING 0    /* 字串物件. */
#define OBJ_LIST 1      /* 列表物件. */
#define OBJ_SET 2       /* 集合物件. */
#define OBJ_ZSET 3      /* 有序集合物件. */
#define OBJ_HASH 4      /* 雜湊物件. */

/* The "module" object type is a special one that signals that the object
 * is one directly managed by a Redis module. In this case the value points
 * to a moduleValue struct, which contains the object value (which is only
 * handled by the module itself) and the RedisModuleType struct which lists
 * function pointers in order to serialize, deserialize, AOF-rewrite and
 * free the object.
 *
 * Inside the RDB file, module types are encoded as OBJ_MODULE followed
 * by a 64 bit module type ID, which has a 54 bits module-specific signature
 * in order to dispatch the loading to the right module, plus a 10 bits
 * encoding version. */
#define OBJ_MODULE 5    /* 模組物件. */
#define OBJ_STREAM 6    /* 流物件. */
複製程式碼

然後是encoding欄位,代表著物件值的實際編碼型別,取值一共有11種:

/* Objects encoding. Some kind of objects like Strings and Hashes can be
 * internally represented in multiple ways. The 'encoding' field of the object
 * is set to one of this fields for this object. */
#define OBJ_ENCODING_RAW 0     /* 簡單動態字串 */
#define OBJ_ENCODING_INT 1     /* long型別的整數 */
#define OBJ_ENCODING_HT 2      /* 字典 */
#define OBJ_ENCODING_ZIPMAP 3  /* 壓縮字典 */
#define OBJ_ENCODING_LINKEDLIST 4 /* 不再使用的舊列表,使用雙端連結串列. */
#define OBJ_ENCODING_ZIPLIST 5 /* 壓縮列表 */
#define OBJ_ENCODING_INTSET 6  /* 整數集合 */
#define OBJ_ENCODING_SKIPLIST 7  /* 跳躍表和字典 */
#define OBJ_ENCODING_EMBSTR 8  /* embstr編碼的簡單動態字串 */
#define OBJ_ENCODING_QUICKLIST 9 /* 編碼為ziplist的列表 */
#define OBJ_ENCODING_STREAM 10 /* 編碼為listpacks的基數樹 */
複製程式碼

前面已經提到字串物件只用到了long型別的整數簡單動態字串embstr編碼的簡單動態字串這三種編碼。

Redis的字串物件筆記

OBJ_ENCODING_INT

當字串物件的值是一個整數且可以用long來表示時,字串物件的編碼就會是OBJ_ENCODING_INT編碼。

Redis的字串物件筆記

可以看到,當值非常大的時候還是用OBJ_ENCODING_RAW來儲存的。

OBJ_ENCODING_RAW

當字串物件的值是一個字串且長度大於44位元組時,字串物件的編碼就會是OBJ_ENCODING_RAW編碼。具體結構在下文。

OBJ_ENCODING_EMBSTR

當字串物件的值是一個字串且長度小於等於44位元組時,字串物件的編碼就會是OBJ_ENCODING_EMBSTR編碼。OBJ_ENCODING_EMBSTR編碼和OBJ_ENCODING_RAW編碼的區別主要有以下幾點:

  • OBJ_ENCODING_RAW編碼的物件在分配記憶體時會分配兩次,分別建立redisObject物件和SDS物件。而OBJ_ENCODING_EMBSTR編碼則是一次就分配好。
  • 同樣的,OBJ_ENCODING_RAW編碼的物件釋放記憶體也需要兩次,OBJ_ENCODING_EMBSTR編碼則是一次。
  • OBJ_ENCODING_EMBSTR編碼的資料都儲存在連續的記憶體上,OBJ_ENCODING_RAW編碼則不是。
/* Create a string object with EMBSTR encoding if it is smaller than
 * OBJ_ENCODING_EMBSTR_SIZE_LIMIT, otherwise the RAW encoding is
 * used.
 *
 * The current limit of 44 is chosen so that the biggest string object
 * we allocate as EMBSTR will still fit into the 64 byte arena of jemalloc. */
#define OBJ_ENCODING_EMBSTR_SIZE_LIMIT 44
robj *createStringObject(const char *ptr, size_t len) {
    if (len <= OBJ_ENCODING_EMBSTR_SIZE_LIMIT)
        return createEmbeddedStringObject(ptr,len);
    else
        return createRawStringObject(ptr,len);
}
複製程式碼

SDS

字串是Redis裡非常常見的型別,而用C實現的RedisJava不一樣。在C裡字串是用長度為N+1的字元陣列實現的,且使用空字串'\0'作為結束符號。獲取字串的長度需要遍歷一遍,找到空字串'\0'才知道字串的長度,複雜度是O(N)

如果有一個長度非常大的字串,單執行緒的Redis獲取它的長度就可能會阻塞很久,這是不能接受的,所以Redis需要一種更高效的字串型別。

Redis實現了一個叫SDS(simple dynamic string)的字串型別,其中有兩個變數來分別代表字串的長度和字元陣列未使用的字元數量,這樣就可以用O(1)的複雜度來獲取字串的長度了,而且同樣也是使用空字串'\0'作為結束符號。

struct sdshdr {
    // 字串長度
    int len;
    // 字元陣列未使用的字元數量
    int free;
    // 儲存字串的字元陣列
    char buf[];
}

複製程式碼

擴容機制

SDS在字元陣列空間不足於容納新字串的時候會自動擴容。

如果把一個C字串拼接到一個SDS後面,當字元陣列空間不足時,SDS會先擴容到剛好可以容納新字串的長度,然後再擴充新字串的空字元長度,最終SDS的字元陣列長度等於 2 * 新字串 + 1(結束符號'\0')。不過當新字串的大小超過1MB後,擴充的空字元長度大小會固定為1MB

之所以會有這個機制,是因為Redis作為一個NoSQL資料庫,會頻繁的修改字串,擴容機制相當於給SDS做了一個緩衝池。把SDS連續增長N次字串需要記憶體重分配N次優化成了SDS連續增長N次字串最多需要記憶體重分配N次,這其實和Java裡的StringBuilder實現思想是一樣的。

後記

我看過兩本關於Redis的書,裡面都是講Redis如何實戰的,並沒有講Redis的設計和實現。這也就導致了面試很尷尬,因為面試官最喜歡問原理相關的東西了,所以以後學習技術的時候不要從實戰類的書籍開始了,還是先看懂原理比較好。

參考資料

這是《Redis設計與實現》裡字串一節的總結。

Redis的字串物件筆記

相關文章