布隆過濾器(Bloom Filter)詳解

pythontab發表於2019-02-28

Bloom Filter演算法類似一個hash set,用來判斷某個元素(key)是否在某個集合中。
和一般的hash set不同的是,這個演算法無需儲存key的值,對於每個key,只需要k個位元位,每個儲存一個標誌,用來判斷key是否在集合中。

演算法執行過程

1. 首先需要k個hash函式,每個函式可以把key雜湊成為1個整數
2. 初始化時,需要一個長度為n位元的陣列,每個位元位初始化為0
3. 某個key加入集合時,用k個hash函式計算出k個雜湊值,並把陣列中對應的位元位置為1
4. 判斷某個key是否在集合時,用k個hash函式計算出k個雜湊值,並查詢陣列中對應的位元位,如果所有的位元位都是1,認為在集合中。

優點:

不需要儲存key,節省空間

缺點:

1. 演算法判斷key在集合中時,有一定的概率key其實不在集合中
2. 無法刪除

典型的應用場景:

某些儲存系統的設計中,會存在空查詢缺陷:當查詢一個不存在的key時,需要訪問慢裝置,導致效率低下。
比如一個前端頁面的快取系統,可能這樣設計:先查詢某個頁面在本地是否存在,如果存在就直接返回,如果不存在,就從後端獲取。但是當頻繁從快取系統查詢一個頁面時,快取系統將會頻繁請求後端,把壓力匯入後端。

這是隻要增加一個Bloom Filter演算法的服務,後端插入一個key時,在這個服務中設定一次
需要查詢後端時,先判斷key在後端是否存在,這樣就能避免後端的壓力。



 

 

 

 

布隆過濾器(Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它實際上是由一個很長的二進位制向量和一系列隨機對映函式組成,布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都遠遠超過一般的演算法,缺點是有一定的誤識別率(假正例False positives,即Bloom Filter報告某一元素存在於某集合中,但是實際上該元素並不在集合中)和刪除困難,但是沒有識別錯誤的情形(即假反例False negatives,如果某個元素確實沒有在該集合中,那麼Bloom Filter 是不會報告該元素存在於集合中的,所以不會漏報)。

在日常生活中,包括在設計計算機軟體時,我們經常要判斷一個元素是否在一個集合中。比如在字處理軟體中,需要檢查一個英語單詞是否拼寫正確(也就是要判斷 它是否在已知的字典中);在 FBI,一個嫌疑人的名字是否已經在嫌疑名單上;在網路爬蟲裡,一個網址是否被訪問過等等。最直接的方法就是將集合中全部的元素存在計算機中,遇到一個新 元素時,將它和集合中的元素直接比較即可。一般來講,計算機中的集合是用雜湊表(hash table)來儲存的。它的好處是快速準確,缺點是費儲存空間。當集合比較小時,這個問題不顯著,但是當集合巨大時,雜湊表儲存效率低的問題就顯現出來 了。比如說,一個象 Yahoo,Hotmail 和 Gmai 那樣的公眾電子郵件(email)提供商,總是需要過濾來自傳送垃圾郵件的人(spamer)的垃圾郵件。一個辦法就是記錄下那些發垃圾郵件的 email 地址。由於那些傳送者不停地在註冊新的地址,全世界少說也有幾十億個發垃圾郵件的地址,將他們都存起來則需要大量的網路伺服器。如果用雜湊表,每儲存一億 個 email 地址, 就需要 1.6GB 的記憶體(用雜湊表實現的具體辦法是將每一個 email 地址對應成一個八位元組的資訊指紋(詳見:googlechinablog.com/2006/08/blog-post.html), 然後將這些資訊指紋存入雜湊表,由於雜湊表的儲存效率一般只有 50%,因此一個 email 地址需要佔用十六個位元組。一億個地址大約要 1.6GB, 即十六億位元組的記憶體)。因此存貯幾十億個郵件地址可能需要上百 GB 的記憶體。除非是超級計算機,一般伺服器是無法儲存的。

基本概念

如果想判斷一個元素是不是在一個集合裡,一般想到的是將所有元素儲存起來,然後通過比較確定。連結串列,樹等等資料結構都是這種思路. 但是隨著集合中元素的增加,我們需要的儲存空間越來越大,檢索速度也越來越慢。不過世界上還有一種叫作雜湊表(又叫雜湊表,Hash table)的資料結構。它可以通過一個Hash函式將一個元素對映成一個位陣列(Bit Array)中的一個點。這樣一來,我們只要看看這個點是不是 1 就知道可以集合中有沒有它了。這就是布隆過濾器的基本思想。

Hash面臨的問題就是衝突。假設 Hash 函式是良好的,如果我們的位陣列長度為 m 個點,那麼如果我們想將衝突率降低到例如 1%, 這個雜湊表就只能容納 m/100 個元素。顯然這就不叫空間有效了(Space-efficient)。解決方法也簡單,就是使用多個 Hash,如果它們有一個說元素不在集合中,那肯定就不在。如果它們都說在,雖然也有一定可能性它們在說謊,不過直覺上判斷這種事情的概率是比較低的。

優點

相比於其它的資料結構,布隆過濾器在空間和時間方面都有巨大的優勢。布隆過濾器儲存空間和插入/查詢時間都是常數。另外, Hash 函式相互之間沒有關係,方便由硬體並行實現。布隆過濾器不需要儲存元素本身,在某些對保密要求非常嚴格的場合有優勢。

布隆過濾器可以表示全集,其它任何資料結構都不能;

k 和 m 相同,使用同一組 Hash 函式的兩個布隆過濾器的交併差運算可以使用位操作進行。

缺點

但是布隆過濾器的缺點和優點一樣明顯。誤算率(False Positive)是其中之一。隨著存入的元素數量增加,誤算率隨之增加。但是如果元素數量太少,則使用雜湊表足矣。

另外,一般情況下不能從布隆過濾器中刪除元素. 我們很容易想到把位列陣變成整數陣列,每插入一個元素相應的計數器加1, 這樣刪除元素時將計數器減掉就可以了。然而要保證安全的刪除元素並非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器裡面. 這一點單憑這個過濾器是無法保證的。另外計數器迴繞也會造成問題。

False positives 概率推導

假設 Hash 函式以等概率條件選擇並設定 Bit Array 中的某一位,m 是該位陣列的大小,k 是 Hash 函式的個數,那麼位陣列中某一特定的位在進行元素插入時的 Hash 操作中沒有被置位的概率是:

那麼在所有 k 次 Hash 操作後該位都沒有被置 "1" 的概率是:

如果我們插入了 n 個元素,那麼某一位仍然為 "0" 的概率是:

因而該位為 "1"的概率是:

現在檢測某一元素是否在該集合中。標明某個元素是否在集合中所需的 k 個位置都按照如上的方法設定為 "1",但是該方法可能會使演算法錯誤的認為某一原本不在集合中的元素卻被檢測為在該集合中(False Positives),該概率由以下公式確定:

其實上述結果是在假定由每個 Hash 計算出需要設定的位(bit) 的位置是相互獨立為前提計算出來的,不難看出,隨著 m (位陣列大小)的增加,假正例(False Positives)的概率會下降,同時隨著插入元素個數 n 的增加,False Positives的概率又會上升,對於給定的m,n,如何選擇Hash函式個數 k 由以下公式確定:

此時False Positives的概率為:

而對於給定的False Positives概率 p,如何選擇最優的位陣列大小 m 呢,

上式表明,位陣列的大小最好與插入元素的個數成線性關係,對於給定的 m,n,k,假正例概率最大為:

 

下圖是布隆過濾器假正例概率 p 與位陣列大小 m 和集合中插入元素個數 n 的關係圖,假定 Hash 函式個數選取最優數目:

 

Bloom Filter 用例

Google 著名的分散式資料庫 Bigtable 使用了布隆過濾器來查詢不存在的行或列,以減少磁碟查詢的IO次數。

Squid 網頁代理快取伺服器在cache digests中使用了也布隆過濾器。

Venti 文件儲存系統也採用布隆過濾器來檢測先前儲存的資料。

SPIN 模型檢測器也使用布隆過濾器在大規模驗證問題時跟蹤可達狀態空間。

Google Chrome瀏覽器使用了布隆過濾器加速安全瀏覽服務。

在很多Key-Value系統中也使用了布隆過濾器來加快查詢過程,如 Hbase,Accumulo,Leveldb,一般而言,Value 儲存在磁碟中,訪問磁碟需要花費大量時間,然而使用布隆過濾器可以快速判斷某個Key對應的Value是否存在,因此可以避免很多不必要的磁碟IO操作,只是引入布隆過濾器會帶來一定的記憶體消耗,下圖是在Key-Value系統中布隆過濾器的典型使用:

相關文章