本篇部落格我們主要介紹如何用Redis實現布隆過濾器,但是在介紹布隆過濾器之前,我們首先介紹一下,為啥要使用布隆過濾器。
1、布隆過濾器使用場景
比如有如下幾個需求:
①、原本有10億個號碼,現在又來了10萬個號碼,要快速準確判斷這10萬個號碼是否在10億個號碼庫中?
解決辦法一:將10億個號碼存入資料庫中,進行資料庫查詢,準確性有了,但是速度會比較慢。
解決辦法二:將10億號碼放入記憶體中,比如Redis快取中,這裡我們算一下佔用記憶體大小:10億*8位元組=8GB,通過記憶體查詢,準確性和速度都有了,但是大約8gb的記憶體空間,挺浪費記憶體空間的。
②、接觸過爬蟲的,應該有這麼一個需求,需要爬蟲的網站千千萬萬,對於一個新的網站url,我們如何判斷這個url我們是否已經爬過了?
解決辦法還是上面的兩種,很顯然,都不太好。
③、同理還有垃圾郵箱的過濾。
那麼對於類似這種,大資料量集合,如何準確快速的判斷某個資料是否在大資料量集合中,並且不佔用記憶體,布隆過濾器應運而生了。
2、布隆過濾器簡介
帶著上面的幾個疑問,我們來看看到底什麼是布隆過濾器。
布隆過濾器:一種資料結構,是由一串很長的二進位制向量組成,可以將其看成一個二進位制陣列。既然是二進位制,那麼裡面存放的不是0,就是1,但是初始預設值都是0。
如下所示:
①、新增資料
介紹概念的時候,我們說可以將布隆過濾器看成一個容器,那麼如何向布隆過濾器中新增一個資料呢?
如下圖所示:當要向布隆過濾器中新增一個元素key時,我們通過多個hash函式,算出一個值,然後將這個值所在的方格置為1。
比如,下圖hash1(key)=1,那麼在第2個格子將0變為1(陣列是從0開始計數的),hash2(key)=7,那麼將第8個格子置位1,依次類推。
②、判斷資料是否存在?
知道了如何向布隆過濾器中新增一個資料,那麼新來一個資料,我們如何判斷其是否存在於這個布隆過濾器中呢?
很簡單,我們只需要將這個新的資料通過上面自定義的幾個雜湊函式,分別算出各個值,然後看其對應的地方是否都是1,如果存在一個不是1的情況,那麼我們可以說,該新資料一定不存在於這個布隆過濾器中。
反過來說,如果通過雜湊函式算出來的值,對應的地方都是1,那麼我們能夠肯定的得出:這個資料一定存在於這個布隆過濾器中嗎?
答案是否定的,因為多個不同的資料通過hash函式算出來的結果是會有重複的,所以會存在某個位置是別的資料通過hash函式置為的1。
我們可以得到一個結論:布隆過濾器可以判斷某個資料一定不存在,但是無法判斷一定存在。
③、布隆過濾器優缺點
優點:優點很明顯,二進位制組成的陣列,佔用記憶體極少,並且插入和查詢速度都足夠快。
缺點:隨著資料的增加,誤判率會增加;還有無法判斷資料一定存在;另外還有一個重要缺點,無法刪除資料。
3、Redis實現布隆過濾器
①、bitmaps
我們知道計算機是以二進位制位作為底層儲存的基礎單位,一個位元組等於8位。
比如“big”字串是由三個字元組成的,這三個字元對應的ASCII碼分為是98、105、103,對應的二進位制儲存如下:
在Redis中,Bitmaps 提供了一套命令用來操作類似上面字串中的每一個位。
一、設定值
setbit key offset value
我們知道"b"的二進位制表示為0110 0010,我們將第7位(從0開始)設定為1,那0110 0011 表示的就是字元“c”,所以最後的字元 “big”變成了“cig”。
二、獲取值
gitbit key offset
三、獲取點陣圖指定範圍值為1的個數
bitcount key [start end]
如果不指定,那就是獲取全部值為1的個數。
注意:start和end指定的是位元組的個數,而不是位陣列下標。
②、Redisson
Redis 實現布隆過濾器的底層就是通過 bitmap 這種資料結構,至於如何實現,這裡就不重複造輪子了,介紹業界比較好用的一個客戶端工具——Redisson。
Redisson 是用於在 Java 程式中操作 Redis 的庫,利用Redisson 我們可以在程式中輕鬆地使用 Redis。
下面我們就通過 Redisson 來構造布隆過濾器。
1 package com.ys.rediscluster.bloomfilter.redisson; 2 3 import org.redisson.Redisson; 4 import org.redisson.api.RBloomFilter; 5 import org.redisson.api.RedissonClient; 6 import org.redisson.config.Config; 7 8 public class RedissonBloomFilter { 9 10 public static void main(String[] args) { 11 Config config = new Config(); 12 config.useSingleServer().setAddress("redis://192.168.14.104:6379"); 13 config.useSingleServer().setPassword("123"); 14 //構造Redisson 15 RedissonClient redisson = Redisson.create(config); 16 17 RBloomFilter<String> bloomFilter = redisson.getBloomFilter("phoneList"); 18 //初始化布隆過濾器:預計元素為100000000L,誤差率為3% 19 bloomFilter.tryInit(100000000L,0.03); 20 //將號碼10086插入到布隆過濾器中 21 bloomFilter.add("10086"); 22 23 //判斷下面號碼是否在布隆過濾器中 24 System.out.println(bloomFilter.contains("123456"));//false 25 System.out.println(bloomFilter.contains("10086"));//true 26 } 27 }
這是單節點的Redis實現方式,如果資料量比較大,期望的誤差率又很低,那單節點所提供的記憶體是無法滿足的,這時候可以使用分散式布隆過濾器,同樣也可以用 Redisson 來實現,這裡我就不做程式碼演示了,大家有興趣可以試試。
4、guava 工具
最後提一下不用Redis如何來實現布隆過濾器。
guava 工具包相信大家都用過,這是谷歌公司提供的,裡面也提供了布隆過濾器的實現。
1 package com.ys.rediscluster.bloomfilter; 2 3 import com.google.common.base.Charsets; 4 import com.google.common.hash.BloomFilter; 5 import com.google.common.hash.Funnel; 6 import com.google.common.hash.Funnels; 7 8 public class GuavaBloomFilter { 9 public static void main(String[] args) { 10 BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),100000,0.01); 11 12 bloomFilter.put("10086"); 13 14 System.out.println(bloomFilter.mightContain("123456")); 15 System.out.println(bloomFilter.mightContain("10086")); 16 } 17 }