基於Redis分散式BitMap的應用

Java知識圖譜發表於2022-03-04

一、序言

在實際開發中常常遇到如下需求:判斷當前元素是否存在於已知的集合中,將已知集合中的元素維護一個HashSet,使用時只需耗時O(1)的時間複雜度便可判斷出結果,Java內部或者Redis均提供相應的資料結構。使用此種方式除了佔用記憶體空間外,幾乎沒有其它缺點。

當資料量達到億級別時,記憶體空間的佔用顯著表現出來,BitMap便是解決此類問題的一種途徑。

二、BitMap結構

1、記憶體消耗分析

Redis BitMap能夠儲存的資料範圍為[0,2^32-1],超過Integer.MAX_VALUE上界值。

為了簡化討論,假設討論的集合元素的範圍為[0,Integer.MAX_VALUE],可以是其中的任何一個數。

使用HashSet資料結構佔用記憶體空間僅與集合中的元素數量(N)相關。當集合中元素數量為N時,所需的記憶體空間大概為N*4/1024/1024MB,1億條資料約佔記憶體空間381MB

基於Redis的BitMap所佔用的空間大小不與集合中元素數量相關,與集合中元素的最大值直接相關,因此BitMap所佔用的記憶體空間範圍為[N / 8 / 1024 / 1024,Integer.MAX_VALUE / 8 / 1024 / 1024]

// 測試1億、5億、10億、Integer.MAX_VALUE
List<Integer> items = Arrays.asList(100000000, 500000000, 1000000000, Integer.MAX_VALUE);
for (Integer item : items) {
    int size = item / 8 / 1024 / 1024;
    System.out.printf("如果集合中最大值為%-10s,則所佔用的記憶體空間為%3sMB%n",item, size);
}

這裡給出了一組測試參考資料

如果集合中最大值為100000000 ,則所佔用的記憶體空間為 11MB
如果集合中最大值為500000000 ,則所佔用的記憶體空間為 59MB
如果集合中最大值為1000000000,則所佔用的記憶體空間為119MB
如果集合中最大值為2147483647,則所佔用的記憶體空間為255MB

當集合中資料增長到10億條時,使用BItMap最大佔用記憶體約為255MB,而使用HashSet增長到3.8GB

2、命令列操作BitMap

使用Redis命令列可直接操作BitMap,將offset位置的值標註為1,則表示當前資料存在。預設情況下未標註的位置值為0。

# 預設位不賦值為0,當資料存在於集合中,將對應位賦值為1
SETBIT key offset value
# 檢視對應位資料是否存在(1表示存在,0表示不存在)
GETBIT key offset
3、客戶端操作BitMap

這裡提供一個SpringBoot生態的RedisUtils工具類,內部封裝操作Redis BitMap的工具方法。

// 將當前位置標記為true
RedisUtils.setBit(BIT_MAP_KEY, orderId, true);
// 獲取指定位置的值(對應數值是否存在)
RedisUtils.getBit(BIT_MAP_KEY, orderId)

上述工具類的依賴如下,如果找不到Jar包,請直接使用Maven原始倉庫源,阿里雲尚未同步完成。

<dependency>
    <groupId>xin.altitude.cms</groupId>
    <artifactId>ucode-cms-common</artifactId>
    <version>1.4.3</version>
</dependency>
4、時間與空間複雜度

BitMap的儲存與取值時間複雜度為O(1),根據數值可直接對映下標。

BitMap佔用記憶體空間複雜度為O(n),與集合中元素的最大值正相關,不是集合中元素的數量。

三、BitMap應用

1、迴避快取穿透

快取穿透是指當前請求的資料在快取中不存在,需要訪問資料庫獲取資料(資料庫中也不存在請求的資料)。快取穿透給資料庫帶來了壓力,惡意快取穿透甚至能造成資料庫當機。

使用BitMap動態維護一個集合,當訪問資料庫前,先查詢資料的主鍵是否存在集合中,以此作為是否訪問資料庫的依據。

BitMap新增資料或者移除資料屬於輕量級操作,檢查操作的準確度依賴於動態集合維護的閉環的完整性。比如向資料庫增加資料時需要向BitMap中新增資料,從資料庫中刪除資料需要從BitMap中移除資料。如果要求嚴格的檢查可靠性,則可以單獨維護一個分散式定時任務,定期更新BitMap資料。

2、與布隆過濾器的區別

布隆過濾器與BitMap有相似的應用場景,但也有一定的區別。給定一個數,BitMap能準確知道是否存在於已知集合中;布隆過濾器能準確判斷是否不在集合中,卻不能肯定存在於集合中。

BitMap增加或者移除資料時間複雜度為O(1),方便快捷。布隆過濾器新建容易,剔除資料操作比較繁瑣。

在一些需要精確判斷的場景,優先選擇BitMap,比如判斷手機號是否已經註冊。

四、小結

Redis BitMap不是一種新的資料結構,是利用字串型別做的一層封裝,看起來像一種新型資料結構。BitMap不像一種技術,更像是演算法,在時間複雜度和空間複雜度之間尋找平衡點。

BitMap其它應用場景比如簽到打卡,統計線上人數等等。

相關文章