探索C#之布隆過濾器(Bloom filter)

發表於2015-08-06

原文網址 : http://blog.jobbole.com/89018/

C#過濾器OOMFilter

背景介紹

Bloom filter(後面簡稱BF)是Bloom在1970年提出的二進位制向量資料結構。通俗來說就是在大資料集合下高效判斷某個成員是否屬於這個集合。BF其優點在於：

插入和查詢複雜度都是O(n)
空間利用率極高。

例子1：

像Yahoo這類的公共郵件服務提供商，總是需要過濾垃圾郵件。假設有50億個郵件地址，需要儲存過濾的方法有：

1.所有郵件地址都儲存到資料庫。
缺點：每次都需要查詢資料庫，效率低。

2.使用Hashtable儲存到記憶體裡，接近O(1)的查詢效率。
缺點：太佔記憶體，假定每個地址需要十六個字元，50億個需要180G記憶體。

3.建立位陣列，將每個郵件地址用Hash函式對映到位陣列中的某一位。
缺點：單個Hash函式衝突太高，會發生多個郵件會對映到同一位上。

而使用BF可以最大限度避免上述缺點，使其可以在更小空間上，進行高效插入和查詢。

例子2：

經常使用快取的肯定知道，命中率是個永遠的話題。特別是在分散式快取中，每次不命中就意味著一次跨網路通訊的浪費，無故增加快取伺服器壓力。使用BF可以在很大程度上提高快取命中率。

演算法原理

BF很合適解決類似上面的問題。 BF和例子1中的第三種方法非常類似了。不同的是，BF對同一個郵件地址使用多個不同的Hash函式，再去對映位陣列的中對應位置。

演算法步驟：

建立長度為m的位陣列，全部置為0。
取出郵件地址集合(m)中的某一個地址(a), 分別使用k個hash函式對a計算。
將結果分別對映到位陣列中，並設定為1。
其他成員依次處理。

以函式個數k=8來算，50億個郵件地址只需要5G記憶體足夠了，比例子1中方法2節省32倍空間。

當查詢成員a時是否在垃圾郵件集合m中時，使用同樣k個hash函式進行計算，如果k個結果在位陣列中的位值都是1，則判斷a屬於m集合中，即a郵件地址屬於垃圾郵件地址集合m(a∈m)。

關於例子2，可以將所有key儲存到本地記憶體中，每次遠端獲取快取時，優先在記憶體集合中判斷是否存在。

存在？去遠端獲取實際快取內容。
不存在？直接返回，無需再去遠端快取伺服器判斷。

這樣能極大提高快取命中率，因為BF存在誤判率，所有並不能達到100%(在key的數量級不高時，用其他方法全存下來也可以)。如圖：

誤判率

因為BF使用Hash函式來取得成員的特徵(可理解為成員的指紋資訊)，並沒有在位陣列中儲存集合內的實際資料內容，所以空間利用率極高，但存在個潛在問題，就是查詢某個成員是否屬於集合時，會發生誤判(False positive)。也就是說，某個成員實際不在集合中，但BF會得出在集中的結論。所以BF適用於允許發生一定誤判的場景，如例子1、2中少量過濾失敗或去伺服器拿都是可以接受的。

為什麼會有誤判?

假定有一個長度12的位陣列，使用3個hash函式，根據演算法計算成員a得出3、7、11位置，並在位陣列中設定為1。另外個成員b根據演算法也計算得出3、7、11，去位陣列檢查其位值時，就發現3、7、11都為1是存在的，而實際不存在(1是成員a設定的)，此時就發生了誤判現象。

BF會發生誤判，但不會發生漏判(False Negative)，即成員實際在集合中，那麼BF一定能判斷出在集合中，因為成員對應的位置都設定為1了。

可控制性

根據其陣列長度m、集合大小n、hash函式個數k、誤判率p，簡單得出下：

其他不變，集合大小n越大，越多位被設定1，誤判率p越大。
其他不變，陣列漲肚m越大，剩餘為0的位越多，誤判率p越小
其他不變，新增時k越多，位陣列越多被設定為1，即會增大誤判率。查詢時k越多，明顯誤判率可能就會越小。

hash函式個數取值公式 k = ln 2 * m/n 。

其他它關係公式見wiki。

BF改進

基本的BF在使用時有個缺點：無法刪除集合成員a，只能增加其成員並對其查詢。有一個很容易想到但錯誤的方法是：如果要刪除成員a，那麼先用k個hash函式對其計算，因為a已經是集合成員，那麼其對應的位陣列的位置一定被設定為1，所以只要將對應位置重新設定為0即可。原因就是位陣列的位置不但只提供給a使用，也給其他成員使用，一旦設定為0就會影響其他成員的使用。

比如上面中提高快取命中率的例子，不能刪除成員意味著實際快取也不能刪除。如果實際快取刪除了，而在集合中的資料無法刪除，就會發生漏判現象。這樣的話就會大大限制BF的使用場景。

計數BF(count bloom filter)

計數BF是對基本BF的改進，使BF可以支援刪除成員。因為BF的基本單位是1個bit，只能表達2種狀態，即存在、不存在。如果把基本單位1bit擴充成多個bit，這樣就能增加更多資訊，表達出多種狀態。

計數BF的基本單元由多個bit表示，一般情況為3、4個bit。這樣在新增時，在陣列位置上的數值上加1即可，刪除成員時-1即可。查詢集合成員時保持不變，只要數值不為0即認為成員是存在的。

計數BF使基本BF有了更多應用場景。同樣由於用了多個bit來表示，對應陣列大小也相應增加，如果用3bit作為基本單位，那麼陣列大小對應增加了3倍。

總結

BF是大資料處理的利器，其使用場景非常多：

Google的爬蟲重複URL檢測。
黑名單驗證。
例子中的快取命中率，垃圾郵件過濾。
記憶體擋一層，減輕db空查壓力。
hbase、LevelDB內部使用。

基本BF的具體實現可參考 http://bloomfilter.codeplex.com。

參考資料

[1] http://en.wikipedia.org/wiki/Bloom_filter

[2] http://www.cnblogs.com/heaad/archive/2011/01/02/1924195.html

布隆過濾器（Bloom Filter）
2020-05-10
過濾器OOMFilter
布隆過濾器 Bloom Filter
2021-03-06
過濾器OOMFilter
Bloom Filter 布隆過濾器
2020-12-25
OOMFilter過濾器
布隆過濾器(Bloom Filter)詳解
2019-02-28
過濾器OOMFilter
雜湊表擴充套件—布隆過濾器（Bloom Filter）
2018-03-03
套件過濾器OOMFilter
Xor過濾器：比布隆Bloom過濾器更快，更小
2019-12-20
過濾器OOM
快取問題(二) 布隆過濾器(Bloom Filter) 介紹和原理
2020-11-10
快取過濾器OOMFilter
布隆過濾器
2021-12-31
過濾器
victoriaMetrics庫之布隆過濾器
2022-04-05
過濾器
淺談布隆過濾器
2024-04-10
過濾器
Redis-布隆過濾器
2020-10-14
Redis過濾器
大白話布隆過濾器
2019-05-23
過濾器
Guava的布隆過濾器
2019-04-28
Guava過濾器
品味布隆過濾器的設計之美
2023-04-14
過濾器
Redis 中的布隆過濾器
2019-03-03
Redis過濾器
Redis 應用-布隆過濾器
2019-07-05
Redis過濾器
布隆過濾器與 Redis BitMap
2023-03-06
過濾器Redis
PHP實現布隆過濾器
2020-12-01
PHP過濾器
從點陣圖到布隆過濾器，C#實現
2022-06-26
過濾器C#
那些有趣的演算法之布隆過濾器
2019-02-26
演算法過濾器
還有人不懂布隆過濾器嗎？
2022-01-26
過濾器
5分鐘掌握布隆過濾器
2021-11-06
過濾器
從快取穿透聊到布隆過濾器
2019-10-30
快取穿透過濾器
演算法(3)---布隆過濾器原理
2019-07-24
演算法過濾器
布隆過濾器-使用場景的思考
2020-06-14
過濾器
Redis詳解（十三）------ Redis布隆過濾器
2020-06-03
Redis過濾器
布隆過濾器的原理及應用
2021-08-12
過濾器
Redis布隆過濾器分析與總結
2021-04-13
Redis過濾器
【實戰問題】-- 快取穿透之布隆過濾器（1）
2021-03-27
快取穿透過濾器
實現布隆過濾器的三種方式
2020-10-09
過濾器
詳解布隆過濾器原理與實現
2021-12-05
過濾器
LevelDB 學習筆記1：布隆過濾器
2022-04-08
筆記過濾器
布隆過濾器實戰【防止快取擊穿】
2019-03-22
過濾器快取
Redis快取穿透解決方案--布隆過濾器
2020-10-20
Redis快取穿透過濾器
詳解布隆過濾器的原理和實現
2021-12-09
過濾器
面試官問：什麼是布隆過濾器？
2021-11-03
面試過濾器
布隆過濾器解決快取穿透問題
2020-12-01
過濾器快取穿透
Filter過濾器
2020-10-26
Filter過濾器
布隆過濾器(BloomFilter)原理實現和效能測試
2020-07-24
過濾器OOMFilter

探索C#之布隆過濾器(Bloom filter)

背景介紹

演算法原理

誤判率

BF改進

總結

參考資料

相關文章