布隆過濾器(Bloom Filter)
在 日常生活中,包括在設計計算機軟體時,我們經常要判斷一個元素是否在一個集合中。比如在字處理軟體中,需要檢查一個英語單詞是否拼寫正確(也就是要判斷它 是否在已知的字典中);在 FBI,一個嫌疑人的名字是否已經在嫌疑名單上;在網路爬蟲裡,一個網址是否被訪問過等等。最直接的方法就是將集合中全部的元素存在計算機中,遇到一個新 元素時,將它和集合中的元素直接比較即可。一般來講,計算機中的集合是用雜湊表(hash table)來儲存的。它的好處是快速準確,缺點是費儲存空間。當集合比較小時,這個問題不顯著,但是當集合巨大時,雜湊表儲存效率低的問題就顯現出來 了。比如說,一個象 Yahoo,Hotmail 和 Gmai 那樣的公眾電子郵件(email)提供商,總是需要過濾來自傳送垃圾郵件的人(spamer)的垃圾郵件。一個辦法就是記錄下那些發垃圾郵件的 email 地址。由於那些傳送者不停地在註冊新的地址,全世界少說也有幾十億個發垃圾郵件的地址,將他們都存起來則需要大量的網路伺服器。如果用雜湊表,每儲存一億 個 email 地址, 就需要 1.6GB 的記憶體(用雜湊表實現的具體辦法是將每一個 email 地址對應成一個八位元組的資訊指紋googlechinablog.com/2006/08/blog-post.html, 然後將這些資訊指紋存入雜湊表,由於雜湊表的儲存效率一般只有 50%,因此一個 email 地址需要佔用十六個位元組。一億個地址大約要 1.6GB, 即十六億位元組的記憶體)。因此存貯幾十億個郵件地址可能需要上百 GB 的記憶體。除非是超級計算機,一般伺服器是無法儲存的。
今天,我們介紹一種稱作布隆過濾器的數學工具,它只需要雜湊表 1/8 到 1/4 的大小就能解決同樣的問題。
布隆過濾器是由巴頓.布隆於一九七零年提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。我們通過上面的例子來說明起工作原理。
假 定我們儲存一億個電子郵件地址,我們先建立一個十六億二進位制(位元),即兩億位元組的向量,然後將這十六億個二進位制全部設定為零。對於每一個電子郵件地址 X,我們用八個不同的隨機數產生器(F1,F2, ...,F8) 產生八個資訊指紋(f1, f2, ..., f8)。再用一個隨機數產生器 G 把這八個資訊指紋對映到 1 到十六億中的八個自然數 g1, g2, ...,g8。現在我們把這八個位置的二進位制全部設定為一。當我們對這一億個 email 地址都進行這樣的處理後。一個針對這些 email 地址的布隆過濾器就建成了。(見下圖)
現 在,讓我們看看如何用布隆過濾器來檢測一個可疑的電子郵件地址 Y 是否在黑名單中。我們用相同的八個隨機數產生器(F1, F2, ..., F8)對這個地址產生八個資訊指紋 s1,s2,...,s8,然後將這八個指紋對應到布隆過濾器的八個二進位制位,分別是 t1,t2,...,t8。如果 Y 在黑名單中,顯然,t1,t2,..,t8 對應的八個二進位制一定是一。這樣在遇到任何在黑名單中的電子郵件地址,我們都能準確地發現。
布隆過濾器決不會漏掉任何一個在黑名單中的可 疑地址。但是,它有一條不足之處。也就是它有極小的可能將一個不在黑名單中的電子郵件地址判定為在黑名單中,因為有可能某個好的郵件地址正巧對應個八個都 被設定成一的二進位制位。好在這種可能性很小。我們把它稱為誤識概率。在上面的例子中,誤識概率在萬分之一以下。
布隆過濾器的好處在於快速,省空間。但是有一定的誤識別率。常見的補救辦法是在建立一個小的白名單,儲存那些可能別誤判的郵件地址。
相關文章
- 布隆過濾器 Bloom Filter過濾器OOMFilter
- Bloom Filter 布隆過濾器OOMFilter過濾器
- 布隆過濾器(Bloom Filter)詳解過濾器OOMFilter
- 雜湊表擴充套件—布隆過濾器(Bloom Filter)套件過濾器OOMFilter
- Xor過濾器:比布隆Bloom過濾器更快,更小過濾器OOM
- 快取問題(二) 布隆過濾器(Bloom Filter) 介紹和原理快取過濾器OOMFilter
- 布隆過濾器過濾器
- 淺談布隆過濾器過濾器
- Redis-布隆過濾器Redis過濾器
- 大白話布隆過濾器過濾器
- Guava的布隆過濾器Guava過濾器
- Redis 中的布隆過濾器Redis過濾器
- Redis 應用-布隆過濾器Redis過濾器
- victoriaMetrics庫之布隆過濾器過濾器
- 布隆過濾器 與 Redis BitMap過濾器Redis
- PHP實現布隆過濾器PHP過濾器
- 還有人不懂布隆過濾器嗎?過濾器
- 5分鐘掌握布隆過濾器過濾器
- 從快取穿透聊到布隆過濾器快取穿透過濾器
- 演算法(3)---布隆過濾器原理演算法過濾器
- 布隆過濾器-使用場景的思考過濾器
- Redis詳解(十三)------ Redis布隆過濾器Redis過濾器
- 布隆過濾器的原理及應用過濾器
- Redis布隆過濾器分析與總結Redis過濾器
- 實現布隆過濾器的三種方式過濾器
- 詳解布隆過濾器原理與實現過濾器
- 品味布隆過濾器的設計之美過濾器
- LevelDB 學習筆記1:布隆過濾器筆記過濾器
- 布隆過濾器實戰【防止快取擊穿】過濾器快取
- 那些有趣的演算法之布隆過濾器演算法過濾器
- Redis快取穿透解決方案--布隆過濾器Redis快取穿透過濾器
- 詳解布隆過濾器的原理和實現過濾器
- 面試官問:什麼是布隆過濾器?面試過濾器
- 布隆過濾器解決快取穿透問題過濾器快取穿透
- Filter過濾器Filter過濾器
- 布隆過濾器(BloomFilter)原理 實現和效能測試過濾器OOMFilter
- AI考拉技術分享--布隆過濾器實戰AI過濾器
- 一文徹底弄清Redis的布隆過濾器Redis過濾器