十五分鐘介紹 Redis資料結構--不錯(轉)

langgufu314發表於2012-03-06

下面是一個對Redis官方文件《A fifteen minute introduction to Redis data types》一文的翻譯,如其題目所言,此文目的在於讓一個初學者能通過15分鐘的簡單學習對Redis的資料結構有一個瞭解。

Redis是一種面向“鍵/值”對型別資料的分散式NoSQL資料庫系統,特點是高效能,持久儲存,適應高併發的應用場景。它起步較晚,發展迅速,目前已被許多大型機構採用,比如Github,看看誰在用它
本文翻譯自Redis的一篇官方文件:
A fifteen minute introduction to Redis data types
方便感興趣的朋友,快速介紹Redis的資料型別。

中英文對照,如有疏漏敬請留言,某些關鍵詞不譯,便於閱讀。

—————————————————————————————————————

你也許已經知道Redis並不是簡單的key-value儲存,實際上他是一個資料結構伺服器,支援不同型別的值。也就是說,你不必僅僅把字串當作鍵所指向的值。下列這些資料型別都可作為值型別。

  • 二進位制安全的 字串 string
  • 二進位制安全的 字串列表 list of string
  • 二進位制安全的 字串集合 set of string,換言之:它是一組無重複未排序的element。可以把它看成Ruby中的 hash–其key等於element,value都等於’true‘。
  • 有序集合sorted set of string,類似於集合set,但其中每個元素都和一個浮點數score(評分)關聯。element根據score排序。可以把它看成Ruby中的 hash–其key等於element,value等於score,但元素總是按score的順序排列,無需額外的排序操作。

Redis 鍵

Redis key值是二進位制安全的,這意味著可以用任何二進位制序列作為key值,從形如”foo”的簡單字串到一個JPEG檔案的內容都可以。空字串也是有效key值。

關於key的幾條規則:

  • 太長的鍵值不是個好主意,例如1024位元組的鍵值就不是個好主意,不僅因為消耗記憶體,而且在資料中查詢這類鍵值的計算成本很高。
  • 太短的鍵值通常也不是好主意,如果你要用”u:1000:pwd”來代替”user:1000:password”,這沒有什麼問題,但後者更易閱讀,並且由此增加的空間消耗相對於key object和value object本身來說很小。當然,沒人阻止您一定要用更短的鍵值節省一丁點兒空間。
  • 最好堅持一種模式。例如:”object-type:id:field”就是個不錯的注意,像這樣”user:1000:password”。我喜歡對多單詞的欄位名中加上一個點,就像這樣:”comment:1234:reply.to”。

字串型別

這是最簡單Redis型別。如果你只用這種型別,Redis就像一個可以持久化的memcached伺服器(注:memcache的資料僅儲存在記憶體中,伺服器重啟後,資料將丟失)。

我們來玩兒一下字串型別:

$ redis-cli set mykey "my binary safe value"
OK
$ redis-cli get mykey
my binary safe value

正如你所見到的,通常用SET commandGET command來設定和獲取字串值。

值可以是任何種類的字串(包括二進位制資料),例如你可以在一個鍵下儲存一副jpeg圖片。值的長度不能超過1GB。

雖然字串是Redis的基本值型別,但你仍然能通過它完成一些有趣的操作。例如:原子遞增:

$ redis-cli set counter 100
OK $ redis-cli incr counter
(integer) 101
$ redis-cli incr counter
(integer) 102
$ redis-cli incrby counter 10
(integer) 112

INCR 命令將字串值解析成整型,將其加一,最後將結果儲存為新的字串值,類似的命令有INCRBY, DECR and DECRBY。實際上他們在內部就是同一個命令,只是看上去有點兒不同。

INCR是原子操作意味著什麼呢?就是說即使多個客戶端對同一個key發出INCR命令,也決不會導致競爭的情況。例如如下情況永遠不可能發生:『客戶端1和客戶端2同時讀出“10”,他們倆都對其加到11,然後將新值設定為11』。最終的值一定是12,read-increment-set操作完成時,其他客戶端不會在同一時間執行任何命令。

對字串,另一個的令人感興趣的操作是GETSET命令,行如其名:他為key設定新值並且返回原值。這有什麼用處呢?例如:你的系統每當有新使用者訪問時就用INCR命令操作一個Redis key。你希望每小時對這個資訊收集一次。你就可以GETSET這個key並給其賦值0並讀取原值。

列表型別

要說清楚列表資料型別,最好先講一點兒理論背景,在資訊科技界List這個詞常常被使用不當。例如”Python Lists”就名不副實(名為Linked Lists),但他們實際上是陣列(同樣的資料型別在Ruby中叫陣列)

一般意義上講,列表就是有序元素的序列:10,20,1,2,3就是一個列表。但用陣列實現的List和用Linked List實現的List,在屬性方面大不相同。

Redis lists基於Linked Lists實現。這意味著即使在一個list中有數百萬個元素,在頭部或尾部新增一個元素的操作,其時間複雜度也是常數級別的。用LPUSH 命令在十個元素的list頭部新增新元素,和在千萬元素list頭部新增新元素的速度相同。

那麼,壞訊息是什麼?在陣列實現的list中利用索引訪問元素的速度極快,而同樣的操作在linked list實現的list上沒有那麼快。

Redis Lists are implemented with linked lists because for a database system it is crucial to be able to add elements to a very long list in a very fast way. Another strong advantage is, as you’ll see in a moment, that Redis Lists can be taken at constant length in constant time.

Redis Lists用linked list實現的原因是:對於資料庫系統來說,至關重要的特性是:能非常快的在很大的列表上新增元素。另一個重要因素是,正如你將要看到的:Redis lists能在常數時間取得常數長度。

Redis lists 入門

LPUSH 命令可向list的左邊(頭部)新增一個新元素,而RPUSH命令可向list的右邊(尾部)新增一個新元素。最後LRANGE 命令可從list中取出一定範圍的元素

$ redis-cli rpush messages "Hello how are you?"
OK
$ redis-cli rpush messages "Fine thanks. I‘m having fun with Redis"
OK
$ redis-cli rpush messages "I should look into this NOSQL thing ASAP"
OK
$ redis-cli lrange messages 0 2
1. Hello how are you?
2. Fine thanks. I‘m having fun with Redis
3. I should look into this NOSQL thing ASAP

注意LRANGE 帶有兩個索引,一定範圍的第一個和最後一個元素。這兩個索引都可以為負來告知Redis從尾部開始計數,因此-1表示最後一個元素,-2表示list中的倒數第二個元素,以此類推。

As you can guess from the example above, lists can be used, for instance, in order to implement a chat system. Another use is as queues in order to route messages between different processes. But the key point is that you can use Redis lists every time you require to access data in the same order they are added. This will not require any SQL ORDER BY operation, will be very fast, and will scale to millions of elements even with a toy Linux box.

正如你可以從上面的例子中猜到的,list可被用來實現聊天系統。還可以作為不同程式間傳遞訊息的佇列。關鍵是,你可以每次都以原先新增的順序訪問資料。這不需要任何SQL ORDER BY 操作,將會非常快,也會很容易擴充套件到百萬級別元素的規模。

例如在評級系統中,比如社會化新聞網站 reddit.com,你可以把每個新提交的連結新增到一個list,用LRANGE可簡單的對結果分頁。

在部落格引擎實現中,你可為每篇日誌設定一個list,在該list中推入進部落格評論,等等。

向Redis list壓入ID而不是實際的資料

在上面的例子裡 ,我們將“物件”(此例中是簡單訊息)直接壓入Redis list,但通常不應這麼做,由於物件可能被多次引用:例如在一個list中維護其時間順序,在一個集合中儲存它的類別,只要有必要,它還會出現在其他list中,等等。

讓我們回到reddit.com的例子,將使用者提交的連結(新聞)新增到list中,有更可靠的方法如下所示:

$ redis-cli incr next.news.id
(integer) 1
$ redis-cli set news:1:title "Redis is simple"
OK
$ redis-cli set news:1:url "http://code.google.com/p/redis"
OK
$ redis-cli lpush submitted.news 1
OK

我們自增一個key,很容易得到一個獨一無二的自增ID,然後通過此ID建立物件–為物件的每個欄位設定一個key。最後將新物件的ID壓入submitted.news list。

這只是牛刀小試。在命令參考文件中可以讀到所有和list有關的命令。你可以刪除元素,旋轉list,根據索引獲取和設定元素,當然也可以用LLEN得到list的長度。

Redis 集合

Redis集合是未排序的集合,其元素是二進位制安全的字串。SADD命令可以向集合新增一個新元素。和sets相關的操作也有許多,比如檢測某個元素是否存在,以及實現交集,並集,差集等等。一例勝千言:

$ redis-cli sadd myset 1
(integer) 1
$ redis-cli sadd myset 2
(integer) 1
$ redis-cli sadd myset 3
(integer) 1
$ redis-cli smembers myset
1. 3
2. 1
3. 2

我向集合中新增了三個元素,並讓Redis返回所有元素。如你所見它們是無序的。

現在讓我們檢查某個元素是否存在:

$ redis-cli sismember myset 3
(integer) 1
$ redis-cli sismember myset 30
(integer) 0

“3″是這個集合的成員,而“30”不是。集合特別適合表現物件之間的關係。例如用Redis集合可以很容易實現標籤功能。

下面是一個簡單的方案:對每個想加標籤的物件,用一個標籤ID集合與之關聯,並且對每個已有的標籤,一組物件ID與之關聯。

例如假設我們的新聞ID 1000被加了三個標籤tag 1,2,5和77,就可以設定下面兩個集合:

$ redis-cli sadd news:1000:tags 1
(integer) 1
$ redis-cli sadd news:1000:tags 2
(integer) 1
$ redis-cli sadd news:1000:tags 5
(integer) 1
$ redis-cli sadd news:1000:tags 77
(integer) 1
$ redis-cli sadd tag:1:objects 1000
(integer) 1
$ redis-cli sadd tag:2:objects 1000
(integer) 1
$ redis-cli sadd tag:5:objects 1000
(integer) 1
$ redis-cli sadd tag:77:objects 1000
(integer) 1

要獲取一個物件的所有標籤,如此簡單:

$ redis-cli smembers news:1000:tags
1. 5
2. 1
3. 77
4. 2

而有些看上去並不簡單的操作仍然能使用相應的Redis命令輕鬆實現。例如我們也許想獲得一份同時擁有標籤1, 2, 10和27的物件列表。這可以用SINTER命令來做,他可以在不同集合之間取出交集。因此為達目的我們只需:

$ redis-cli sinter tag:1:objects tag:2:objects tag:10:objects tag:27:objects
... no result in our dataset composed of just one object   ...

命令參考文件中可以找到和集合相關的其他命令,令人感興趣的一抓一大把。一定要留意SORT命令,Redis集合和list都是可排序的。

題外話:如何為字串獲取唯一標識

在標籤的例子裡,我們用到了標籤ID,卻沒有提到ID從何而來。基本上你得為每個加入系統的標籤分配一個唯一標識。你也希望在多個客戶端同時試著新增同樣的標籤時不要出現競爭的情況。此外,如果標籤已存在,你希望返回他的ID,否則建立一個新的唯一標識並將其與此標籤關聯。

Redis 1.4將增加Hash型別。有了它,字串和唯一ID關聯的事兒將不值一提,但如今我們如何用現有Redis命令可靠的解決它呢?

我們首先的嘗試(以失敗告終)可能如下。假設我們想為標籤“redis”獲取一個唯一ID:

  • 為了讓演算法是二進位制安全的(只是標籤而不考慮utf8,空格等等)我們對標籤做SHA1簽名。SHA1(redis)=b840fc02d524045429941cc15f59e41cb7be6c52。
  • 檢查這個標籤是否已與一個唯一ID關聯,
    用命令GET tag:b840fc02d524045429941cc15f59e41cb7be6c52:id
  • 如果上面的GET操作返回一個ID,則將其返回給使用者。標籤已經存在了。
  • 否則… 用INCR next.tag.id命令生成一個新的唯一ID(假定它返回123456)。
  • 最後關聯標籤和新的ID,
    SET tag:b840fc02d524045429941cc15f59e41cb7be6c52:id 123456
    並將新ID返回給呼叫者。

多美妙,或許更好…等等!當兩個客戶端同時使用這組指令嘗試為標籤“redis”獲取唯一ID時會發生什麼呢?如果時間湊巧,他們倆都會從GET操作獲得nil,都將對next.tag.id key做自增操作,這個key會被自增兩次。其中一個客戶端會將錯誤的ID返回給呼叫者。幸運的是修復這個演算法並不難,這是明智的版本:

  • 為了讓演算法是二進位制安全的(只是標籤而不考慮utf8,空格等等)我們對標籤做SHA1簽名。SHA1(redis)=b840fc02d524045429941cc15f59e41cb7be6c52。
  • 檢查這個標籤是否已與一個唯一ID關聯,
    用命令GET tag:b840fc02d524045429941cc15f59e41cb7be6c52:id
  • 如果上面的GET操作返回一個ID,則將其返回給使用者。標籤已經存在了。
  • 否則… 用INCR next.tag.id命令生成一個新的唯一ID(假定它返回123456)。
  • 下面關聯標籤和新的ID,(注意用到一個新的命令)
    SETNX tag:b840fc02d524045429941cc15f59e41cb7be6c52:id 123456。如果另一個客戶端比當前客戶端更快,SETNX將不會設定key。而且,當key被成功設定時SETNX返回1,否則返回0。那麼…讓我們再做最後一步運算。
  • 如果SETNX返回1(key設定成功)則將123456返回給呼叫者,這就是我們的標籤ID,否則執行GET tag:b840fc02d524045429941cc15f59e41cb7be6c52:id 並將其結果返回給呼叫者。

有序集合

集合是使用頻率很高的資料型別,但是…對許多問題來說他們也有點兒太不講順序了;)因此Redis1.2引入了有序集合。他和集合非常相似,也是二進位制安全的字串集合,但是這次帶有關聯的score,以及一個類似LRANGE的操作可以返回有序元素,此操作只能作用於有序集合,它就是,ZRANGE 命令。

基本上有序集合從某種程度上說是SQL世界的索引在Redis中的等價物。例如在上面提到的reddit.com例子中,並沒有提到如何根據使用者投票和時間因素將新聞組合生成首頁。我們將看到有序集合如何解決這個問題,但最好先從更簡單的事情開始,闡明這個高階資料型別是如何工作的。讓我們新增幾個黑客,並將他們的生日作為“score”。

$ redis-cli zadd hackers 1940 "Alan Kay"
(integer) 1
$ redis-cli zadd hackers 1953 "Richard Stallman"
(integer) 1
$ redis-cli zadd hackers 1965 "Yukihiro Matsumoto"
(integer) 1
$ redis-cli zadd hackers 1916 "Claude Shannon"
(integer) 1
$ redis-cli zadd hackers 1969 "Linus Torvalds"
(integer) 1
$ redis-cli zadd hackers 1912 "Alan Turing"
(integer) 1

對有序集合來說,按生日排序返回這些黑客易如反掌,因為他們已經是有序的。有序集合是通過一個dual-ported 資料結構實現的,它包含一個精簡的有序列表和一個hash table,因此新增一個元素的時間複雜度是O(log(N))。這還行,但當我們需要訪問有序的元素時,Redis不必再做任何事情,它已經是有序的了:

$ redis-cli zrange hackers 0 -1
1. Alan Turing
2. Claude Shannon
3. Alan Kay
4. Richard Stallman
5. Yukihiro Matsumoto
6. Linus Torvalds

你知道Linus比Yukihiro年輕嗎

無論如何,我想反向對這些元素排序,這次就用 ZREVRANGE 代替 ZRANGE 吧:

$ redis-cli zrevrange hackers 0 -1
1. Linus Torvalds
2. Yukihiro Matsumoto
3. Richard Stallman
4. Alan Kay
5. Claude Shannon
6. Alan Turing

一個非常重要的小貼士,ZSets只是有一個“預設的”順序,但你仍然可以用 SORT 命令對有序集合做不同的排序(但這次伺服器要耗費CPU了)。要想得到多種排序,一種可選方案是同時將每個元素加入多個有序集合。

區間操作

有序集合之能不止於此,他能在區間上操作。例如獲取所有1950年之前出生的人。我們用 ZRANGEBYSCORE 命令來做:

$ redis-cli zrangebyscore hackers -inf 1950
1. Alan Turing
2. Claude Shannon
3. Alan Kay

我們請求Redis返回score介於負無窮到1950年之間的元素(兩個極值也包含了)。

也可以刪除區間內的元素。例如從有序集合中刪除生日介於1940到1960年之間的黑客。

$ redis-cli zremrangebyscore hackers 1940 1960
(integer) 2

ZREMRANGEBYSCORE 這個名字雖然不算好,但他卻非常有用,還會返回已刪除的元素數量。

回到Reddit的例子

最後,回到 Reddit的例子。現在我們有個基於有序集合的像樣方案來生成首頁。用一個有序集合來包含最近幾天的新聞(用 ZREMRANGEBYSCORE 不時的刪除舊新聞)。用一個後臺任務從有序集合中獲取所有元素,根據使用者投票和新聞時間計算score,然後用新聞IDs和scores關聯生成 reddit.home.page 有序集合。要顯示首頁,我們只需閃電般的呼叫 ZRANGE。

不時的從 reddit.home.page 有序集合中刪除過舊的新聞也是為了讓我們的系統總是工作在有限的新聞集合之上。

更新有序集合的scores

結束這篇指南之前還有最後一個小貼士。有序集合scores可以在任何時候更新。只要用 ZADD 對有序集合內的元素操作就會更新它的score(和位置),時間複雜度是O(log(N)),因此即使大量更新,有序集合也是合適的。

這篇指南遠未盡言,這只是從Redis開始的基礎,欲深入之請讀命令參考文件。

謝謝閱讀。Salvatore。

相關文章