作者:JayChen
什麼是『布隆過濾器』
布隆過濾器是一個神奇的資料結構,可以用來判斷一個元素是否在一個集合中。很常用的一個功能是用來去重。在爬蟲中常見的一個需求:目標網站 URL 千千萬,怎麼判斷某個 URL 爬蟲是否寵幸過?簡單點可以爬蟲每採集過一個 URL,就把這個 URL 存入資料庫中,每次一個新的 URL 過來就到資料庫查詢下是否訪問過。
select id from table where url = 'https://jaychen.cc'
複製程式碼
但是隨著爬蟲爬過的 URL 越來越多,每次請求前都要訪問資料庫一次,並且對於這種字串的 SQL 查詢效率並不高。除了資料庫之外,使用 Redis 的 set 結構也可以滿足這個需求,並且效能優於資料庫。但是 Redis 也存在一個問題:耗費過多的記憶體。這個時候布隆過濾器就很橫的出場了:這個問題讓我來。
相比於資料庫和 Redis,使用布隆過濾器可以很好的避免效能和記憶體佔用的問題。
布隆過濾器本質是一個位陣列,位陣列就是陣列的每個元素都只佔用 1 bit 。每個元素只能是 0 或者 1。這樣申請一個 10000 個元素的位陣列只佔用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位陣列,還有 K 個雜湊函式。當一個元素加入布隆過濾器中的時候,會進行如下操作:
- 使用 K 個雜湊函式對元素值進行 K 次計算,得到 K 個雜湊值。
- 根據得到的雜湊值,在位陣列中把對應下標的值置為 1。
舉個?,假設布隆過濾器有 3 個雜湊函式:f1, f2, f3 和一個位陣列 arr
。現在要把 https://jaychen.cc
插入布隆過濾器中:
- 對值進行三次雜湊計算,得到三個值 n1, n2, n3。
- 把位陣列中三個元素 arr[n1], arr[n2], arr[3] 置為 1。
當要判斷一個值是否在布隆過濾器中,對元素再次進行雜湊計算,得到值之後判斷位陣列中的每個元素是否都為 1,如果值都為 1,那麼說明這個值在布隆過濾器中,如果存在一個值不為 1,說明該元素不在布隆過濾器中。
看不懂文字看下面的靈魂畫手的圖解釋???
看了上面的說明,必然會提出一個問題:當插入的元素原來越多,位陣列中被置為 1 的位置就越多,當一個不在布隆過濾器中的元素,經過雜湊計算之後,得到的值在位陣列中查詢,有可能這些位置也都被置為 1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個元素不在布隆過濾器中,那麼這個值就一定不在布隆過濾器中。簡單來說:
- 布隆過濾器說某個元素在,可能會被誤判。
- 布隆過濾器說某個元素不在,那麼一定不在。
這個布隆過濾器的缺陷放到上面爬蟲的需求中,可能存在某些沒有訪問過的 URL 可能會被誤判為訪問過,但是如果是訪問過的 URL 一定不會被誤判為沒訪問過。
Redis 中的布隆過濾器
redis 在 4.0 的版本中加入了 module 功能,布隆過濾器可以通過 module 的形式新增到 redis 中,所以使用 redis 4.0 以上的版本可以通過載入 module 來使用 redis 中的布隆過濾器。但是這不是最簡單的方式,使用 docker 可以直接在 redis 中體驗布隆過濾器。
> docker run -d -p 6379:6379 --name bloomfilter redislabs/rebloom
> docker exec -it bloomfilter redis-cli
複製程式碼
redis 布隆過濾器主要就兩個命令:
bf.add
新增元素到布隆過濾器中:bf.add urls https://jaychen.cc
。bf.exists
判斷某個元素是否在過濾器中:bf.exists urls https://jaychen.cc
。
上面說過布隆過濾器存在誤判的情況,在 redis 中有兩個值決定布隆過濾器的準確率:
error_rate
:允許布隆過濾器的錯誤率,這個值越低過濾器的位陣列的大小越大,佔用空間也就越大。initial_size
:布隆過濾器可以儲存的元素個數,當實際儲存的元素個數超過這個值之後,過濾器的準確率會下降。
redis 中有一個命令可以來設定這兩個值:
bf.reserve urls 0.01 100
複製程式碼
三個引數的含義:
- 第一個值是過濾器的名字。
- 第二個值為
error_rate
的值。 - 第三個值為
initial_size
的值。
使用這個命令要注意一點:執行這個命令之前過濾器的名字應該不存在,如果執行之前就存在會報錯:(error) ERR item exists