Redis詳解（十三）------ Redis布隆過濾器

YSOcean發表於2020-06-03

原文網址 : https://www.cnblogs.com/ysocean/p/12594982.html

Redis過濾器

　　本篇部落格我們主要介紹如何用Redis實現布隆過濾器，但是在介紹布隆過濾器之前，我們首先介紹一下，為啥要使用布隆過濾器。

1、布隆過濾器使用場景

　　比如有如下幾個需求：

　　①、原本有10億個號碼，現在又來了10萬個號碼，要快速準確判斷這10萬個號碼是否在10億個號碼庫中？

　　解決辦法一：將10億個號碼存入資料庫中，進行資料庫查詢，準確性有了，但是速度會比較慢。

　　解決辦法二：將10億號碼放入記憶體中，比如Redis快取中，這裡我們算一下佔用記憶體大小：10億*8位元組=8GB，通過記憶體查詢，準確性和速度都有了，但是大約8gb的記憶體空間，挺浪費記憶體空間的。

　　②、接觸過爬蟲的，應該有這麼一個需求，需要爬蟲的網站千千萬萬，對於一個新的網站url，我們如何判斷這個url我們是否已經爬過了？

　　解決辦法還是上面的兩種，很顯然，都不太好。

　　③、同理還有垃圾郵箱的過濾。

　　那麼對於類似這種，大資料量集合，如何準確快速的判斷某個資料是否在大資料量集合中，並且不佔用記憶體，布隆過濾器應運而生了。

2、布隆過濾器簡介

　　帶著上面的幾個疑問，我們來看看到底什麼是布隆過濾器。

　　布隆過濾器：一種資料結構，是由一串很長的二進位制向量組成，可以將其看成一個二進位制陣列。既然是二進位制，那麼裡面存放的不是0，就是1，但是初始預設值都是0。

　　如下所示：

　　①、新增資料

　　介紹概念的時候，我們說可以將布隆過濾器看成一個容器，那麼如何向布隆過濾器中新增一個資料呢？

　　如下圖所示：當要向布隆過濾器中新增一個元素key時，我們通過多個hash函式，算出一個值，然後將這個值所在的方格置為1。

　　比如，下圖hash1(key)=1，那麼在第2個格子將0變為1（陣列是從0開始計數的），hash2(key)=7，那麼將第8個格子置位1，依次類推。

　　②、判斷資料是否存在？

　　知道了如何向布隆過濾器中新增一個資料，那麼新來一個資料，我們如何判斷其是否存在於這個布隆過濾器中呢？

　　很簡單，我們只需要將這個新的資料通過上面自定義的幾個雜湊函式，分別算出各個值，然後看其對應的地方是否都是1，如果存在一個不是1的情況，那麼我們可以說，該新資料一定不存在於這個布隆過濾器中。

　　反過來說，如果通過雜湊函式算出來的值，對應的地方都是1，那麼我們能夠肯定的得出：這個資料一定存在於這個布隆過濾器中嗎？

　　答案是否定的，因為多個不同的資料通過hash函式算出來的結果是會有重複的，所以會存在某個位置是別的資料通過hash函式置為的1。

　　我們可以得到一個結論：布隆過濾器可以判斷某個資料一定不存在，但是無法判斷一定存在。

　　③、布隆過濾器優缺點

　　優點：優點很明顯，二進位制組成的陣列，佔用記憶體極少，並且插入和查詢速度都足夠快。

　　缺點：隨著資料的增加，誤判率會增加；還有無法判斷資料一定存在；另外還有一個重要缺點，無法刪除資料。

3、Redis實現布隆過濾器

①、bitmaps

　　我們知道計算機是以二進位制位作為底層儲存的基礎單位，一個位元組等於8位。

　　比如“big”字串是由三個字元組成的，這三個字元對應的ASCII碼分為是98、105、103，對應的二進位制儲存如下：

　　在Redis中，Bitmaps 提供了一套命令用來操作類似上面字串中的每一個位。

　　一、設定值

setbit key offset value

　　我們知道"b"的二進位制表示為0110 0010，我們將第7位（從0開始）設定為1，那0110 0011 表示的就是字元“c”，所以最後的字元 “big”變成了“cig”。

　　二、獲取值

gitbit key offset

　　三、獲取點陣圖指定範圍值為1的個數

bitcount key [start end]

　　如果不指定，那就是獲取全部值為1的個數。

　　注意：start和end指定的是位元組的個數，而不是位陣列下標。

②、Redisson

　　Redis 實現布隆過濾器的底層就是通過 bitmap 這種資料結構，至於如何實現，這裡就不重複造輪子了，介紹業界比較好用的一個客戶端工具——Redisson。

　　Redisson 是用於在 Java 程式中操作 Redis 的庫，利用Redisson 我們可以在程式中輕鬆地使用 Redis。

　　下面我們就通過 Redisson 來構造布隆過濾器。

 1 package com.ys.rediscluster.bloomfilter.redisson;
 2 
 3 import org.redisson.Redisson;
 4 import org.redisson.api.RBloomFilter;
 5 import org.redisson.api.RedissonClient;
 6 import org.redisson.config.Config;
 7 
 8 public class RedissonBloomFilter {
 9 
10     public static void main(String[] args) {
11         Config config = new Config();
12         config.useSingleServer().setAddress("redis://192.168.14.104:6379");
13         config.useSingleServer().setPassword("123");
14         //構造Redisson
15         RedissonClient redisson = Redisson.create(config);
16 
17         RBloomFilter<String> bloomFilter = redisson.getBloomFilter("phoneList");
18         //初始化布隆過濾器：預計元素為100000000L,誤差率為3%
19         bloomFilter.tryInit(100000000L,0.03);
20         //將號碼10086插入到布隆過濾器中
21         bloomFilter.add("10086");
22 
23         //判斷下面號碼是否在布隆過濾器中
24         System.out.println(bloomFilter.contains("123456"));//false
25         System.out.println(bloomFilter.contains("10086"));//true
26     }
27 }

　　這是單節點的Redis實現方式，如果資料量比較大，期望的誤差率又很低，那單節點所提供的記憶體是無法滿足的，這時候可以使用分散式布隆過濾器，同樣也可以用 Redisson 來實現，這裡我就不做程式碼演示了，大家有興趣可以試試。

4、guava 工具

　　最後提一下不用Redis如何來實現布隆過濾器。

　　guava 工具包相信大家都用過，這是谷歌公司提供的，裡面也提供了布隆過濾器的實現。

 1 package com.ys.rediscluster.bloomfilter;
 2 
 3 import com.google.common.base.Charsets;
 4 import com.google.common.hash.BloomFilter;
 5 import com.google.common.hash.Funnel;
 6 import com.google.common.hash.Funnels;
 7 
 8 public class GuavaBloomFilter {
 9     public static void main(String[] args) {
10         BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8),100000,0.01);
11 
12         bloomFilter.put("10086");
13 
14         System.out.println(bloomFilter.mightContain("123456"));
15         System.out.println(bloomFilter.mightContain("10086"));
16     }
17 }

Redis-布隆過濾器
2020-10-14
Redis過濾器
Redis 中的布隆過濾器
2019-03-03
Redis過濾器
Redis 應用-布隆過濾器
2019-07-05
Redis過濾器
布隆過濾器與 Redis BitMap
2023-03-06
過濾器Redis
Redis快取穿透解決方案--布隆過濾器
2020-10-20
Redis快取穿透過濾器
Redis布隆過濾器分析與總結
2021-04-13
Redis過濾器
布隆過濾器(Bloom Filter)詳解
2019-02-28
過濾器OOMFilter
一文徹底弄清Redis的布隆過濾器
2024-10-21
Redis過濾器
詳解布隆過濾器原理與實現
2021-12-05
過濾器
布隆過濾器
2021-12-31
過濾器
利用 Redis 的 bitmap 實現簡單的布隆過濾器
2020-06-28
Redis過濾器
Redis解讀（4）：Redis中HyperLongLog、布隆過濾器、限流、Geo、及Scan等進階應用
2021-07-28
Redis過濾器
詳解布隆過濾器的原理和實現
2021-12-09
過濾器
Redis 布隆過濾器實戰「快取擊穿、雪崩效應」
2019-03-22
Redis過濾器快取
Redis布隆過濾器的原理和應用場景，解決快取穿透
2023-04-20
Redis過濾器快取穿透
SpringBoot(18）---通過Lua指令碼批量插入資料到Redis布隆過濾器
2019-07-28
Spring Boot指令碼Redis過濾器
淺談布隆過濾器
2024-04-10
過濾器
布隆過濾器（Bloom Filter）
2020-05-10
過濾器OOMFilter
大白話布隆過濾器
2019-05-23
過濾器
Guava的布隆過濾器
2019-04-28
Guava過濾器
布隆過濾器 Bloom Filter
2021-03-06
過濾器OOMFilter
Bloom Filter 布隆過濾器
2020-12-25
OOMFilter過濾器
victoriaMetrics庫之布隆過濾器
2022-04-05
過濾器
PHP實現布隆過濾器
2020-12-01
PHP過濾器
Xor過濾器：比布隆Bloom過濾器更快，更小
2019-12-20
過濾器OOM
【Redis的那些事 · 續集】Redis的點陣圖、HyperLogLog資料結構演示以及布隆過濾器
2022-01-01
Redis資料結構過濾器
還有人不懂布隆過濾器嗎？
2022-01-26
過濾器
5分鐘掌握布隆過濾器
2021-11-06
過濾器
布隆過濾器解決快取穿透問題
2020-12-01
過濾器快取穿透
從快取穿透聊到布隆過濾器
2019-10-30
快取穿透過濾器
演算法(3)---布隆過濾器原理
2019-07-24
演算法過濾器
布隆過濾器-使用場景的思考
2020-06-14
過濾器
布隆過濾器的原理及應用
2021-08-12
過濾器
實現布隆過濾器的三種方式
2020-10-09
過濾器
品味布隆過濾器的設計之美
2023-04-14
過濾器
LevelDB 學習筆記1：布隆過濾器
2022-04-08
筆記過濾器
布隆過濾器實戰【防止快取擊穿】
2019-03-22
過濾器快取
那些有趣的演算法之布隆過濾器
2019-02-26
演算法過濾器