前言
跳躍表是一種有序的資料結構,它通過在每個節點中維持多個指向其他節點的指標,從而達到快速訪問節點的目的。這麼說,我們可能很難理解,我們可以先回憶一下連結串列。
一、複習跳躍表
1.1 什麼是跳躍表
對於一個單連結串列來講,即便連結串列中儲存的資料是有序的,如果我們要想在其中查詢某個資料,也只能從頭到尾遍歷連結串列。這樣查詢效率就會很低,時間複雜度會很高,是 O(n)。
如果我們想要提高其查詢效率,可以考慮在連結串列上建索引的方式。每兩個結點提取一個結點到上一級,我們把抽出來的那一級叫作索引。
這個時候,我們假設要查詢節點8,我們可以先在索引層遍歷,當遍歷到索引層中值為 7 的結點時,發現下一個節點是9,那麼要查詢的節點8肯定就在這兩個節點之間。我們下降到連結串列層繼續遍歷就找到了8這個節點。原先我們在單連結串列中找到8這個節點要遍歷8個節點,而現在有了一級索引後只需要遍歷五個節點。
從這個例子裡,我們看出,加來一層索引之後,查詢一個結點需要遍的結點個數減少了,也就是說查詢效率提高了,同理再加一級索引。
從圖中我們可以看出,查詢效率又有提升。在例子中我們的資料很少,當有大量的資料時,我們可以增加多級索引,其查詢效率可以得到明顯提升。
像這種連結串列加多級索引的結構,就是跳躍表!
二、Redis跳躍表
Redis使用跳躍表作為有序集合鍵的底層實現之一,如果一個有序集合包含的元素數量比較多,又或者有序集合中元素的成員是比較長的字串時, Redis就會使用跳躍表來作為有序集合健的底層實現。
這裡我們需要思考一個問題——為什麼元素數量比較多或者成員是比較長的字串的時候Redis要使用跳躍表來實現?
從上面我們可以知道,跳躍表在連結串列的基礎上增加了多級索引以提升查詢的效率,但其是一個空間換時間的方案,必然會帶來一個問題——索引是佔記憶體的。原始連結串列中儲存的有可能是很大的物件,而索引結點只需要儲存關鍵值值和幾個指標,並不需要儲存物件,因此當節點本身比較大或者元素數量比較多的時候,其優勢必然會被放大,而缺點則可以忽略。
2.1 Redis中跳躍表的實現
Redis的跳躍表由zskiplistNode和skiplist兩個結構定義,其中 zskiplistNode結構用於表示跳躍表節點,而 zskiplist結構則用於儲存跳躍表節點的相關資訊,比如節點的數量,以及指向表頭節點和表尾節點的指標等等。
上圖展示了一個跳躍表示例,其中最左邊的是 skiplist結構,該結構包含以下屬性。
header:指向跳躍表的表頭節點,通過這個指標程式定位表頭節點的時間複雜度就為O(1)
tail:指向跳躍表的表尾節點,通過這個指標程式定位表尾節點的時間複雜度就為O(1)
level:記錄目前跳躍表內,層數最大的那個節點的層數(表頭節點的層數不計算在內),通過這個屬性可以再O(1)的時間複雜度內獲取層高最好的節點的層數。
length:記錄跳躍表的長度,也即是,跳躍表目前包含節點的數量(表頭節點不計算在內),通過這個屬性,程式可以再O(1)的時間複雜度內返回跳躍表的長度。
結構右方的是四個 zskiplistNode結構,該結構包含以下屬性
層(level):
節點中用1、2、L3等字樣標記節點的各個層,L1代表第一層,L代表第二層,以此類推。
每個層都帶有兩個屬性:前進指標和跨度。前進指標用於訪問位於表尾方向的其他節點,而跨度則記錄了前進指標所指向節點和當前節點的距離(跨度越大、距離越遠)。在上圖中,連線上帶有數字的箭頭就代表前進指標,而那個數字就是跨度。當程式從表頭向表尾進行遍歷時,訪問會沿著層的前進指標進行。
每次建立一個新跳躍表節點的時候,程式都根據冪次定律(powerlaw,越大的數出現的概率越小)隨機生成一個介於1和32之間的值作為level陣列的大小,這個大小就是層的“高度”。
後退(backward)指標:
節點中用BW字樣標記節點的後退指標,它指向位於當前節點的前一個節點。後退指標在程式從表尾向表頭遍歷時使用。與前進指標所不同的是每個節點只有一個後退指標,因此每次只能後退一個節點。
分值(score):
各個節點中的1.0、2.0和3.0是節點所儲存的分值。在跳躍表中,節點按各自所儲存的分值從小到大排列。
成員物件(oj):
各個節點中的o1、o2和o3是節點所儲存的成員物件。在同一個跳躍表中,各個節點儲存的成員物件必須是唯一的,但是多個節點儲存的分值卻可以是相同的:分值相同的節點將按照成員物件在字典序中的大小來進行排序,成員物件較小的節點會排在前面(靠近表頭的方向),而成員物件較大的節點則會排在後面(靠近表尾的方向)。
2.2 Redis跳躍表常用操作的時間複雜度
操作 | 時間複雜度 |
---|---|
建立一個跳躍表 | O(1) |
釋放給定跳躍表以及其中包含的節點 | O(N) |
新增給定成員和分值的新節點 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
刪除除跳躍表中包含給定成員和分值的節點 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
返回給定成員和分值的節點再表中的排位 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
返回在給定排位上的節點 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
給定一個分值範圍,返回跳躍表中第一個符合這個範圍的節點 | O(1) |
給定一個分值範圍,返回跳躍表中最後一個符合這個範圍的節點 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
給定一個分值範圍,除跳躍表中所有在這個範圍之內的節點 | 平均O(logN),最壞O(logN)(N為跳躍表的長度) |
給定一個排位範圍,鼎除跳躍表中所有在這個範圍之內的節點 | O(N),N為被除節點數量 |
給定一個分值範固(range),比如0到15,20到28,諸如此類,如果跳氏表中有至少一個節點的分值在這個範間之內,那麼返回1,否則返回0 | O(N),N為被除節點數量 |
本文重點
- 跳躍表基於單連結串列加索引的方式實現
- 跳躍表以空間換時間的方式提升了查詢速度
- Redis有序集合在節點元素較大或者元素數量較多時使用跳躍表實現
- Redis的跳躍表實現由 zskiplist和 zskiplistnode兩個結構組成,其中 zskiplist用於儲存跳躍表資訊(比如表頭節點、表尾節點、長度),而zskiplistnode則用於表示跳躍表節點
- Redis每個跳躍表節點的層高都是1至32之間的隨機數
- 在同一個跳躍表中,多個節點可以包含相同的分值,但每個節點的成員物件必須是唯一的跳躍表中的節點按照分值大小進行排序,當分值相同時,節點按照成員物件的大小進行排序。
小結
跳躍表可能對我們來說是一種的稍陌生的資料結構。本篇文章簡單介紹了跳躍表這種資料結構,並且分析了Redis中跳躍表的使用。下篇文章將繼續分享Redis中用到的資料結構整數集合。敬請關注!
參考
《Redis設計與實現》
《Redis開發與運維》
《Redis官方文件》