Redis 中的布隆過濾器

JayChen發表於2019-03-03

原文網址 : https://flycode.co/archives/264089

原文連結：jaychen.cc/redis/2018/…

作者：JayChen

什麼是『布隆過濾器』

布隆過濾器是一個神奇的資料結構，可以用來判斷一個元素是否在一個集合中。很常用的一個功能是用來去重。在爬蟲中常見的一個需求：目標網站 URL 千千萬，怎麼判斷某個 URL 爬蟲是否寵幸過？簡單點可以爬蟲每採集過一個 URL，就把這個 URL 存入資料庫中，每次一個新的 URL 過來就到資料庫查詢下是否訪問過。

select id from table where url = 'https://jaychen.cc'
複製程式碼

但是隨著爬蟲爬過的 URL 越來越多，每次請求前都要訪問資料庫一次，並且對於這種字串的 SQL 查詢效率並不高。除了資料庫之外，使用 Redis 的 set 結構也可以滿足這個需求，並且效能優於資料庫。但是 Redis 也存在一個問題：耗費過多的記憶體。這個時候布隆過濾器就很橫的出場了：這個問題讓我來。

相比於資料庫和 Redis，使用布隆過濾器可以很好的避免效能和記憶體佔用的問題。

布隆過濾器本質是一個位陣列，位陣列就是陣列的每個元素都只佔用 1 bit 。每個元素只能是 0 或者 1。這樣申請一個 10000 個元素的位陣列只佔用 10000 / 8 = 1250 B 的空間。布隆過濾器除了一個位陣列，還有 K 個雜湊函式。當一個元素加入布隆過濾器中的時候，會進行如下操作：

使用 K 個雜湊函式對元素值進行 K 次計算，得到 K 個雜湊值。
根據得到的雜湊值，在位陣列中把對應下標的值置為 1。

舉個?，假設布隆過濾器有 3 個雜湊函式：f1, f2, f3 和一個位陣列 arr。現在要把 https://jaychen.cc 插入布隆過濾器中：

對值進行三次雜湊計算，得到三個值 n1, n2, n3。
把位陣列中三個元素 arr[n1], arr[n2], arr[3] 置為 1。

當要判斷一個值是否在布隆過濾器中，對元素再次進行雜湊計算，得到值之後判斷位陣列中的每個元素是否都為 1，如果值都為 1，那麼說明這個值在布隆過濾器中，如果存在一個值不為 1，說明該元素不在布隆過濾器中。

看不懂文字看下面的靈魂畫手的圖解釋???

看了上面的說明，必然會提出一個問題：當插入的元素原來越多，位陣列中被置為 1 的位置就越多，當一個不在布隆過濾器中的元素，經過雜湊計算之後，得到的值在位陣列中查詢，有可能這些位置也都被置為 1。這樣一個不存在布隆過濾器中的也有可能被誤判成在布隆過濾器中。但是如果布隆過濾器判斷說一個元素不在布隆過濾器中，那麼這個值就一定不在布隆過濾器中。簡單來說：

布隆過濾器說某個元素在，可能會被誤判。
布隆過濾器說某個元素不在，那麼一定不在。

這個布隆過濾器的缺陷放到上面爬蟲的需求中，可能存在某些沒有訪問過的 URL 可能會被誤判為訪問過，但是如果是訪問過的 URL 一定不會被誤判為沒訪問過。