Redis為什麼快？你只知道單執行緒和基於記憶體？抱歉我不能給你offer...

面試場景

面試官：Redis有哪些資料型別？

我：String，List，set，zset，hash

面試官：沒了？

我：哦哦哦，還有HyperLogLog，bitMap，GeoHash，BloomFilter

面試官：就這？回家等通知吧。

前言

我敢肯定，第一個回答，100%的人都能說上來，但是第二個回答能回答上來的人可能就不多了，但是這也不是我今天探討的話題。

我就從我自己的去面試的回答思路，以及作為一個面試官他想聽到的標準答案來給大家出一期，Redis基礎型別的文章（系列文章），寫這個的時候我還是很有心得的，不知道大家有多少人跟我最開始一樣，面試官問有哪些型別，就回答出那五種就結束了，如果你是這樣的可以在評論區留言，讓我看看有多少人是這樣的。

但是，一場面試少說都是半小時起步上不封頂，你這樣一句話就回答了這麼重要的五個知識點，這個結果是你想要的麼？是面試官想要的麼？

我再問你一個問題，你可能就懵逼了：String在Redis底層是怎麼儲存的？這些資料型別在Redis中是怎麼存放的？Redis快的原因就只有單執行緒和基於記憶體麼？

寶貝，觸及知識盲區沒？不慌，我以前也是這樣的，我以為我背出那五種就完事了，結果被面試官安排了一波，後面我苦心修煉，總算是好了一點，現在對快取也是非常熟悉了，你不會沒事，有我嘛，乖。

正文

Redis是C語言開發的，C語言自己就有字元型別，但是Redis卻沒直接採用C語言的字串型別，而是自己構建了動態字串（SDS）的抽象型別。

就好比這樣的一個命令，其實我是在Redis建立了兩個SDS，一個是名為aobing的Key SDS，另一個是名為cool的Value SDS，就算是字元型別的List，也是由很多的SDS構成的Key和Value罷了。

SDS在Redis中除了用作字串，還用作緩衝區（buffer），那到這裡大家都還是有點疑惑的，C語言的字串不好麼為啥用SDS？SDS長啥樣？有什麼優點呢?

為此我去找到了Redis的原始碼，可以看到SDS值的結果大概是這樣的，原始碼的在GitHub上是開源的大家一搜就有了。

struct sdshdr{
    int len;
    int free;
    char buf[];
}

回到最初的問題，為什麼Redis用了自己新開發的SDS，而不用C語言的字串？那好我們去看看他們的區別。

SDS與C字串的區別

計數方式不同

C語言對字串長度的統計，就完全來自遍歷，從頭遍歷到末尾，直到發現空字元就停止，以此統計出字串的長度，這樣獲取長度的時間複雜度來說是0（n），大概就像下面這樣：

但是這樣的計數方式會留下隱患，所以Redis沒有采用C的字串，我後面會提到。

而Redis我在上面已經給大家看過結構了，他自己本身就儲存了長度的資訊，所以我們獲取長度的時間複雜度為0（1），是不是發現了Redis快的一點小細節了？還沒完，不止這些。

杜絕緩衝區溢位

字串拼接是我們經常做的操作，在C和Redis中一樣，也是很常見的操作，但是問題就來了，C是不記錄字串長度的，一旦我們呼叫了拼接的函式，如果沒有提前計算好記憶體，是會產生快取區溢位的。

比如本來字串長這樣：

你現在需要在後面拼接，但是你沒計算好記憶體，結果就可能這樣了：

這是你要的結果麼？很顯然，不是，你的結果意外的被修改了，這要是放線上上的系統，這不是完了？那Redis是怎麼避免這樣的情況的？

我們都知道，他結構儲存了當前長度，還有free未使用的長度，那簡單呀，你現在做了拼接操作，我去判斷一些是否可以放得下，如果長度夠就直接執行，如果不夠，那我就進行擴容。

這些大家在Redis原始碼裡面都是可以看到對應的API的，後面我就不一一貼原始碼了，有興趣的可以自己去看一波，需要一點C語言的基礎。

減少修改字串時帶來的記憶體重分配次數

C語言字串底層也是一個陣列，每次建立的時候就建立一個N+1長度的字元，多的那個1，就是為了儲存空字元的，這個空字元也是個坑，但是不是這個環節探討的內容。

Redis是個快取記憶體資料庫，如果我們需要對字串進行頻繁的拼接和截斷操作，如果我們寫程式碼忘記了重新分配記憶體，就可能造成緩衝區溢位，以及記憶體洩露。

記憶體分配演算法很耗時，且不說你會不會忘記重新分配記憶體，就算你全部記得，對於一個快取記憶體資料庫來說，這樣的開銷也是我們應該要避免的。

Redis為了避免C字串這樣的缺陷，就分別採用了兩種解決方案，去達到效能最大化，空間利用最大化：

空間預分配：當我們對SDS進行擴充套件操作的時候，Redis會為SDS分配好記憶體，並且根據特定的公式，分配多餘的free空間，還有多餘的1byte空間（這1byte也是為了存空字元），這樣就可以避免我們連續執行字串新增所帶來的記憶體分配消耗。
比如現在有這樣的一個字元：

我們呼叫了拼接函式，字串邊長了，Redis還會根據演算法計算出一個free值給他備用：

我們再繼續拼接，你會發現，備用的free用上了，省去了這次的記憶體重分配：

惰性空間釋放：剛才提到了會預分配多餘的空間，很多小夥伴會擔心帶來記憶體的洩露或者浪費，別擔心，Redis大佬一樣幫我們想到了，當我們執行完一個字串縮減的操作，redis並不會馬上收回我們的空間，因為可以預防你繼續新增的操作，這樣可以減少分配空間帶來的消耗，但是當你再次操作還是沒用到多餘空間的時候，Redis也還是會收回對於的空間，防止記憶體的浪費的。
還是一樣的字串：

當我們呼叫了刪減的函式，並不會馬上釋放掉free空間：

如果我們需要繼續新增這個空間就能用上了，減少了記憶體的重分配，如果空間不需要了，呼叫函式刪掉就好了：

二進位制安全

仔細看的仔肯定看到上面我不止一次提到了空字元也就是’0‘，C語言是判斷空字元去判斷一個字元的長度的，但是有很多資料結構經常會穿插空字元在中間，比如圖片，音訊，視訊，壓縮檔案的二進位制資料，就比如下面這個單詞，他只能識別前面的不能識別後面的字元，那對於我們開發者而言，這樣的結果顯然不是我們想要的對不對。

Redis就不存在這個問題了，他不是儲存了字串的長度嘛，他不判斷空字元，他就判斷長度對不對就好了，所以redis也經常被我們拿來儲存各種二進位制資料，我反正是用的很high，經常用來儲存小檔案的二進位制。

資料參考：Redis設計與實現

總結

大家是不是發現，一個小小的SDS居然有這麼多道理在這？

以前就知道Redis快，最多說個Redis是單執行緒的，說個多路IO複用，說個基於記憶體的操作就完了，現在是不是還可以展開說說了？

本文是系列文的第一章，後續會陸續更新的，不知道這樣的型別大家是否喜歡，可以留言給我反饋。

大家一同去面試，一樣的問題，就是有人能過，有人不能過，大家經常歸咎於自己學歷，自己過往經歷的原因，但是你可以問一下自己，底層的細節位元組是否有深究呢？細節往往才是最重要的，也是最少人知道的，如何和別的仔拉開差距拿到offer，我想就是這樣些細節決定的吧，背誰不會呢？

絮叨

我是敖丙，一個在網際網路苟且偷生的程式設計師。

你知道的越多，你不知道的越多，人才們的 【三連】 就是丙丙創作的最大動力，我們下期見！

注：如果本篇部落格有任何錯誤和建議，歡迎人才們留言！

Redis為什麼快？你只知道單執行緒和基於記憶體？抱歉我不能給你offer...

面試場景

前言

正文

SDS與C字串的區別

總結

絮叨

相關文章