Redis原始碼閱讀：sds字串實現

hoohack發表於2018-04-04

初衷

從開始工作就開始使用Redis，也有一段時間了，但都只是停留在使用階段，沒有往更深的角度探索，每次想讀原始碼都止步在閱讀書籍上，因為看完書很快又忘了，這次逼自己先讀程式碼。因為個人覺得寫作需要閱讀文字來增強靈感，那麼寫程式碼的，就閱讀更多程式碼來增強靈感吧。

redis的實現原理，在《Redis設計與實現》一書中講得很詳細了，但是想通過結合程式碼的形式再深入探索，加深自己的理解，現在將自己探索的心得寫在這兒。

sds結構體的定義

#define SDS_TYPE_5  0
#define SDS_TYPE_8  1
#define SDS_TYPE_16 2
#define SDS_TYPE_32 3
#define SDS_TYPE_64 4
#define SDS_TYPE_MASK 7

// sds結構體，使用不同的結構體來儲存不同長度大小的字串
typedef char *sds;

struct __attribute__ ((__packed__)) sdshdr5 {
    unsigned char flags; /* flags共8位，低三位儲存型別標誌，高5位儲存字串長度，小於32(2^5-1) */
    char buf[]; // 儲存具體的字串
};
struct __attribute__ ((__packed__)) sdshdr8 {
    uint8_t len; /* 字串長度，buf已用的長度 */
    uint8_t alloc; /* 為buf分配的總長度，alloc-len就是sds結構體剩餘的空間 */
    unsigned char flags; /* 低三位儲存型別標誌 */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {
    uint16_t len; /* used */
    uint16_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 {
    uint32_t len; /* used */
    uint32_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 {
    uint64_t len; /* used */
    uint64_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};

#define SDS_TYPE_5 0

#define SDS_TYPE_8 1

#define SDS_TYPE_16 2

#define SDS_TYPE_32 3

#define SDS_TYPE_64 4

#define SDS_TYPE_MASK 7

// sds結構體，使用不同的結構體來儲存不同長度大小的字串

typedef char *sds;

struct __attribute__ ((__packed__)) sdshdr5 {

unsigned char flags; /* flags共8位，低三位儲存型別標誌，高5位儲存字串長度，小於32(2^5-1) */

char buf[]; // 儲存具體的字串

};

struct __attribute__ ((__packed__)) sdshdr8 {

uint8_t len; /* 字串長度，buf已用的長度 */

uint8_t alloc; /* 為buf分配的總長度，alloc-len就是sds結構體剩餘的空間 */

unsigned char flags; /* 低三位儲存型別標誌 */

char buf[];

};

struct __attribute__ ((__packed__)) sdshdr16 {

uint16_t len; /* used */

uint16_t alloc; /* excluding the header and null terminator */

unsigned char flags; /* 3 lsb of type, 5 unused bits */

char buf[];

};

struct __attribute__ ((__packed__)) sdshdr32 {

uint32_t len; /* used */

uint32_t alloc; /* excluding the header and null terminator */

unsigned char flags; /* 3 lsb of type, 5 unused bits */

char buf[];

};

struct __attribute__ ((__packed__)) sdshdr64 {

uint64_t len; /* used */

uint64_t alloc; /* excluding the header and null terminator */

unsigned char flags; /* 3 lsb of type, 5 unused bits */

char buf[];

};

sds結構體從4.0開始就使用了5種header定義，節省記憶體的使用，但是不會用到sdshdr5，我認為是因為sdshdr5能儲存的大小較少，2^5=32，因此就不使用它。

其他的結構體儲存了len、alloc、flags以及buf四個屬性。各自的含義見程式碼的註釋。

sds結構體的獲取

上面可以看到有5種結構體的定義，在使用的時候是通過一個巨集來獲取的：

#define SDS_HDR(T,s) ((struct sdshdr##T *)((s)-(sizeof(struct sdshdr##T))))

1	#define SDS_HDR(T,s) ((struct sdshdr##T *)((s)-(sizeof(struct sdshdr##T))))

”##”被稱為連線符，它是一種預處理運算子，用來把兩個語言符號(Token)組合成單個語言符號。比如SDS_HDR(8, s)，根據巨集定義展開是：

((struct sdshdr8 *)((s)-(sizeof(struct sdshdr8))))

1	((struct sdshdr8 *)((s)-(sizeof(struct sdshdr8))))

而具體使用哪一個結構體，sds底層是通過flags屬性與SDS_TYPE_MASK做與運算得出具體的型別（具體的實現可見下面的sdslen函式），然後再根據型別去獲取具體的結構體。

sds特性的實現

在Redis設計與實現一書中講到，相比C字串而言，sds的特性如下：

常數複雜度獲取字串長度

杜絕緩衝區溢位

減少記憶體重新分配次數

二進位制安全

那麼，它是怎麼做到的呢？看程式碼。

常數複雜度獲取字串長度

因為sds將長度屬性儲存在結構體中，所以只需要讀取這個屬性就能獲取到sds的長度，具體呼叫的函式時sdslen，實現如下：

static inline size_t sdslen(const sds s) {
    unsigned char flags = s[-1];
    switch(flags&SDS_TYPE_MASK) {
        case SDS_TYPE_5:
            return SDS_TYPE_5_LEN(flags);
        case SDS_TYPE_8:
            return SDS_HDR(8,s)->len;
        case SDS_TYPE_16:
            return SDS_HDR(16,s)->len;
        case SDS_TYPE_32:
            return SDS_HDR(32,s)->len;
        case SDS_TYPE_64:
            return SDS_HDR(64,s)->len;
    }
    return 0;
}

static inline size_t sdslen(const sds s) {

unsigned char flags = s[-1];

switch(flags&SDS_TYPE_MASK) {

case SDS_TYPE_5:

return SDS_TYPE_5_LEN(flags);

case SDS_TYPE_8:

return SDS_HDR(8,s)->len;

case SDS_TYPE_16:

return SDS_HDR(16,s)->len;

case SDS_TYPE_32:

return SDS_HDR(32,s)->len;

case SDS_TYPE_64:

return SDS_HDR(64,s)->len;

}

return 0;

}

可以看到，函式是根據型別呼叫SDS_HDR巨集來獲取具體的sds結構，然後直接返回結構體的len屬性。

杜絕緩衝區溢位

對於C字串的操作函式來說，如果在修改字串的時候忘了為字串分配足夠的空間，就有可能出現緩衝區溢位的情況。而sds中的API就不會出現這種情況，因為它在修改sds之前，都會判斷它是否有足夠的空間完成接下來的操作。

拿書中舉例的sdscat函式來看，如果strcat想在原來的”Redis”字串的基礎上進行字串拼接的操作，但是沒有檢查空間是否滿足，就有可能會修改了”Redis”字串之後使用到的記憶體，可能是其他結構使用了，也有可能是一段沒有被使用的空間，因此有可能會出現緩衝區溢位。但是sdscat就不會，如下面程式碼所示：

sds sdscatlen(sds s, const void *t, size_t len) {
    size_t curlen = sdslen(s);

    s = sdsMakeRoomFor(s,len);
    if (s == NULL) return NULL;
    memcpy(s+curlen, t, len);
    sdssetlen(s, curlen+len);
    s[curlen+len] = '\0';
    return s;
}

sds sdscat(sds s, const char *t) {
    return sdscatlen(s, t, strlen(t));
}

sds sdscatlen(sds s, const void *t, size_t len) {

size_t curlen = sdslen(s);

s = sdsMakeRoomFor(s,len);

if (s == NULL) return NULL;

memcpy(s+curlen, t, len);

sdssetlen(s, curlen+len);

s[curlen+len] = '\0';

return s;

}

sds sdscat(sds s, const char *t) {

return sdscatlen(s, t, strlen(t));

}

從程式碼中可以看到，在執行memcpy將字串寫入sds之前會呼叫sdsMakeRoomFor函式去檢查sds字串s是否有足夠的空間，如果沒有足夠空間，就為其分配足夠的空間，從而杜絕了緩衝區溢位。sdsMakeRoomFor函式的實現如下：

sds sdsMakeRoomFor(sds s, size_t addlen) {
    void *sh, *newsh;
    size_t avail = sdsavail(s);
    size_t len, newlen;
    char type, oldtype = s[-1] & SDS_TYPE_MASK;
    int hdrlen;

    /* 只有有足夠空間就馬上返回，否則就繼續執行分配空間的操作 */
    if (avail >= addlen) return s;

    len = sdslen(s);
    sh = (char*)s-sdsHdrSize(oldtype);
    newlen = (len+addlen);
    // SDS_MAX_PREALLOC == 1MB，如果修改後的長度小於1M，則分配的空間是原來的2倍，否則增加1MB的空間
    if (newlen

sds sdsMakeRoomFor(sds s, size_t addlen) {

void *sh, *newsh;

size_t avail = sdsavail(s);

size_t len, newlen;

char type, oldtype = s[-1] & SDS_TYPE_MASK;

int hdrlen;

/* 只有有足夠空間就馬上返回，否則就繼續執行分配空間的操作 */

if (avail >= addlen) return s;

len = sdslen(s);

sh = (char*)s-sdsHdrSize(oldtype);

newlen = (len+addlen);

// SDS_MAX_PREALLOC == 1MB，如果修改後的長度小於1M，則分配的空間是原來的2倍，否則增加1MB的空間

if (newlen

減少記憶體分配操作

sds字串的很多操作都涉及到修改字串內容，比如sdscat拼接字串、sdscpy拷貝字串等等。這時候就需要記憶體的分配與釋放，如果每次操作都分配剛剛好的大小，那麼對程式的效能必定有影響，因為記憶體分配涉及到系統呼叫以及一些複雜的演算法。

sds使用了空間預分配以及惰性空間釋放的策略來減少記憶體分配操作。

空間預分配

前面提到，每次涉及到字串的修改時，都會呼叫sdsMakeRoomFor檢查sds字串，如果大小不夠再進行大小的重新分配。sdsMakeRoomFor函式有下面這幾行判斷：

// SDS_MAX_PREALLOC == 1MB，如果修改後的長度小於1M，則分配的空間是原來的2倍，否則增加1MB的空間
if (newlen

1 2	// SDS_MAX_PREALLOC == 1MB，如果修改後的長度小於1M，則分配的空間是原來的2倍，否則增加1MB的空間 if (newlen

函式判斷字串修改後的大小，如果修改後的長度小於1M，則分配給sds的空間是原來的2倍，否則增加1MB的空間。

惰性空間釋放

如果操作後減少了字串的大小，比如下面的sdstrim函式，只是在最後修改len屬性，不會馬上釋放多餘的空間，而是繼續保留多餘的空間，這樣在下次需要增加sds字串的大小時，就不需要再為其分配空間了。當然，如果之後檢查到sds的大小實在太大，也會呼叫sdsRemoveFreeSpace函式釋放多餘的空間。

sds sdstrim(sds s, const char *cset) {
    char *start, *end, *sp, *ep;
    size_t len;

    sp = start = s;
    ep = end = s+sdslen(s)-1;
    /* 從頭部和尾部逐個字元遍歷往中間靠攏，如果字元在cest中，則繼續前進 */
    while(sp  sp && strchr(cset, *ep)) ep--;
    len = (sp > ep) ? 0 : ((ep-sp)+1); // 全部被去除了，長度就是0
    if (s != sp) memmove(s, sp, len); // 拷貝內容
    s[len] = '\0';
    sdssetlen(s,len);
    return s;
}

sds sdstrim(sds s, const char *cset) {

char *start, *end, *sp, *ep;

size_t len;

sp = start = s;

ep = end = s+sdslen(s)-1;

/* 從頭部和尾部逐個字元遍歷往中間靠攏，如果字元在cest中，則繼續前進 */

while(sp sp && strchr(cset, *ep)) ep--;

len = (sp > ep) ? 0 : ((ep-sp)+1); // 全部被去除了，長度就是0

if (s != sp) memmove(s, sp, len); // 拷貝內容

s[len] = '\0';

sdssetlen(s,len);

return s;

}

二進位制安全

二進位制安全指的是隻關心二進位制化的字串，不關心具體格式。只會嚴格的按照二進位制的資料存取，不會妄圖以某種特殊格式解析資料。比如遇到’\0’字元不會停止解析。

對於C字串來說，strlen是判斷遇到’\0’之前的字元數量。如果需要儲存二進位制的資料，就不能通過傳統的C字串來儲存，因為獲取不到它真實的長度。而sds字串是通過len屬性儲存字串的大小，所以它是二進位制安全的。

其他小函式實現

在閱讀原始碼的過程中，也發現了兩個個人比較感興趣趣的函式：

sdsll2str（將long long型別的整型數字轉成字串）

sdstrim （去除頭部和尾部的指定字元）

我這兩個函式拉出來做了測試，在專案的redis-4.0/tests目錄下。sdstrim函式的實現原始碼上面有列出，看看sdsll2str的實現：

int sdsll2str(char *s, long long value) {
    char *p, aux;
    unsigned long long v;
    size_t l;

    /* 通過取餘數得到原字串的逆轉形式 */
    v = (value

int sdsll2str(char *s, long long value) {

char *p, aux;

unsigned long long v;

size_t l;

/* 通過取餘數得到原字串的逆轉形式 */

v = (value

函式是通過不斷取餘數，得到原字串的逆轉形式，接著，通過從尾部開始將字元逐個放到字串s中，看起來像是一個反轉操作，從而實現了將整型轉為字串的操作。

覺得感興趣是因為sdsll2str這個函式在之前學習C語言的時候經常能看到作為問題出現，能看到如此簡潔的實現，表示眼前一亮。而在PHP開發時經常使用trim函式，所以想看看它們的區別。

總結

通過詳細地閱讀sds的原始碼，不僅學習到sds的實現細節，還學習到了一些常用字串操作函式的實現。如果只是僅僅看看資料結構的定義也可以初步瞭解，但是要深入瞭解的話還是需要詳細的閱讀具體函式的實現程式碼。還是那句，寫程式碼的，需要閱讀更多程式碼來增強靈感。

我在github有對Redis原始碼更詳細的註解。感興趣的可以圍觀一下，給個star。Redis4.0原始碼註解。可以通過commit記錄檢視已新增的註解。

原創文章，文筆有限，才疏學淺，文中若有不正之處，萬望告知。

打賞支援我寫出更多好文章，謝謝！
打賞作者

打賞支援我寫出更多好文章，謝謝！

任選一種支付方式

Redis原始碼閱讀：sds字串實現

Redis原始碼閱讀：Redis字串SDS
2018-06-21
Redis原始碼字串
［Redis原始碼閱讀］dict字典的實現
2019-02-22
Redis原始碼
［Redis原始碼閱讀］實現一個redis命令--nonzerodecr
2018-06-21
Redis原始碼
Redis原始碼之SDS簡單動態字串
2023-04-11
Redis原始碼字串
Redis 設計與實現 3：字串 SDS
2020-12-25
Redis字串
redis資料結構原始碼閱讀——字串編碼過程
2020-11-17
Redis資料結構原始碼字串編碼
Redis【2】- SDS原始碼分析
2024-12-07
Redis原始碼
［Redis原始碼閱讀］redis持久化
2018-04-04
Redis原始碼持久化
Redis【1】- 如何閱讀 Redis 原始碼
2024-11-27
Redis原始碼
Redis【1】- 如何閱讀 Redis原始碼
2024-11-27
Redis原始碼
SDS-redis動態字串
2022-03-30
Redis字串
【原始碼閱讀】AndPermission原始碼閱讀
2019-05-09
原始碼
原始碼閱讀之LinkedList實現細節
2018-10-18
原始碼
原始碼閱讀之ArrayList實現細節
2018-11-06
原始碼
原始碼閱讀之Java棧的實現
2018-11-06
原始碼Java
Redis—簡單動態字串（SDS）
2021-05-08
Redis字串
【原始碼閱讀】Glide原始碼閱讀之with方法（一）
2019-04-17
原始碼IDE
【原始碼閱讀】Glide原始碼閱讀之into方法（三）
2019-04-18
原始碼IDE
【原始碼閱讀】Glide原始碼閱讀之load方法（二）
2019-04-18
原始碼IDE
Vue原始碼閱讀一：說說vue.nextTick實現
2018-04-27
Vue原始碼
閱讀vue原始碼後，簡單實現虛擬dom
2020-12-20
Vue原始碼
Redis sds資料結構實現分析ZF
2022-03-21
Redis資料結構
ReactorKit原始碼閱讀
2019-03-03
React原始碼
Vollery原始碼閱讀(—)
2019-02-22
原始碼
NGINX原始碼閱讀
2019-01-19
Nginx原始碼
ThreadLocal原始碼閱讀
2018-12-03
thread原始碼
原始碼閱讀-HashMap
2018-08-15
原始碼HashMap
Runtime 原始碼閱讀
2018-03-12
原始碼
RunLoop 原始碼閱讀
2018-04-17
OOP原始碼
AmplifyImpostors原始碼閱讀
2024-11-28
原始碼
stack原始碼閱讀
2024-06-02
原始碼
CountDownLatch原始碼閱讀
2021-12-25
CountDownLatch原始碼
fuzz原始碼閱讀
2021-11-29
原始碼
HashMap 原始碼閱讀
2021-09-09
HashMap原始碼
delta原始碼閱讀
2021-09-01
原始碼
AQS原始碼閱讀
2022-04-22
AQS原始碼
Mux 原始碼閱讀
2020-11-23
UX原始碼
ConcurrentHashMap原始碼閱讀
2020-11-26
HashMap原始碼

Redis原始碼閱讀：sds字串實現

初衷

sds結構體的定義

sds結構體的獲取

sds特性的實現

常數複雜度獲取字串長度

杜絕緩衝區溢位

減少記憶體分配操作

空間預分配

惰性空間釋放

二進位制安全

其他小函式實現

總結

打賞支援我寫出更多好文章，謝謝！

相關文章