通過BitSet原始碼來理解BitMap演算法

goldenJet發表於2019-03-19

原文網址 : https://juejin.im/post/5c90d5fbe51d454e773a64ea

原始碼演算法

BitMap是一種很常用的資料結構，它的思想的和原理是很多演算法的基礎，當然，並且在索引，資料壓縮，海量資料處理等方面有廣泛應用。

一、簡介

BitMap 是一種很常用的資料結構，它的思想和原理是很多演算法的基礎，比如Bloom Filter 。

BitMap 的基本原理就是用一個 bit 位來存放某種狀態（如果理解不了，看完下文再回頭來看即可），適用於擁有大規模資料，但資料狀態又不是很多的情況。通常是用來判斷某個資料存不存在的。

它最大的一個特點就是對記憶體的佔用極小，所以經常在大資料中被優化使用。

為什麼說佔用記憶體小呢？其實從名字就可以看出端倪，直譯過來叫點陣圖，但不是圖形學裡面的點陣圖哦，關鍵單詞是Bit。比如通過某種方法用一個 bit 來表示一個 int，這樣的話記憶體足足壓縮至 1/32（1 int = 4 byte = 32 bit，PS：理論計算而已，實操時並不會有 1/32 這麼誇張，下文會解釋），所以原先需要8G記憶體的資料，現在只需要256M，豈不樂哉？當然了，其中演算法的一些概念在下文會詳解。

二、初窺 BitMap

1、概念理解

所謂的 BitMap 就是用一個 Bit 位來標記某個元素對應的 Value，而 Key 即是該元素。由於採用了 Bit 為單位來儲存資料，因此在儲存空間方面，可以大大節省。

比如有個 int 陣列 [2,6,1,7,3]，內含5個元素，儲存的空間大小為 5 * 32 = 160 bit，取的時候，使用元素的下標來獲取對應位上的元素。

但是如果換種思路，把元素的值作為下標，每個下標位使用 bit 來標記，有值則為1，否則為0，此時我們只需要在記憶體上開闢一個連續的二進位制位空間，長度為8（因為上面資料最大的元素是7，但是需要考慮下標起點為0），則可以表示成：

說明：初始化一個長度是8的 BitMap，初始值均為0，然後將[2,6,1,7,3]填入對應的下標處，上圖中藍色域，即將這幾個下標處的值設定為1，所以表示為：1 1 0 0 1 1 1 0。此時佔用的記憶體空間為 8 bit，而原來是 160 bit（順便解釋下上文提到的 1/32，因為我們開闢的是連續的內容空間，所以會有冗餘）。

2、案例說明

① 案例一：還是上文的陣列，需求是查詢元素6是否在陣列中。原先我們需要遍歷整個陣列，時間複雜度為 O(n); 而現在我們只需要查驗下標為6的位元組是0還是1即可，如果是1，則代表存在，時間複雜度直接降為 O(1)。所以，**最直接的應用場景便是：**資料的查重。

② 案例二：有兩個陣列，判斷這兩個陣列中的重複元素。原先的最淺顯的做法是雙層for迴圈進行判斷比較。而現在，只需要將轉換完成的兩個BirMap進行與運算即可，如：11001110B & 10100000B = 10000000B，所有得出結果，只有元素 7 重複。當然，最直接的應用場景是： 每個客戶都有不同的標籤，當需要查詢同時符合標籤a和標籤b的客戶的時候，只需要將標籤a和標籤b的客戶查出來進行如上的與運算即可。

3、補充說明

① 實際使用的時候，並不會向上面一樣很隨意地將長度設定為8，一般會設定為32（int型）或64（long型），理由見下文 BitSet 原始碼即可。

② 除了上文提到的與運算，當然了，邏輯或和邏輯異或操作都是OK的。

③ 每個Bit位只能是0或1，所以只能代表true or false，當我們要進行少量統計的時候，可以使用2-BitMap，即每個位上可以使用 00、01、10、11來分別表示數量為 0、1、2，此時的 11 一般無意義。

三、BitSet 原始碼

1、簡述

對於 BitMap 這種經典的資料結構，在 Java 語言裡面，其實已經有對應實現的資料結構類 java.util.BitSet 了（***@since ***JDK1.0），而 BitSet 的底層原理，其實就是用 long 型別的陣列來儲存元素，所以回過頭來看上文提到的為什麼實際使用的時候，長度一般會是有規則的，因為此處使用的是long型別的陣列，而 1 long = 64 bit，所以資料大小會是64的整數倍。

/**
* The internal field corresponding to the serialField "bits".
*/
private  long[]  words;
複製程式碼

至於 Java 中的 BitSet 為什麼使用 long 陣列而不使用 int 陣列，我覺得應該是出於 Java 語言的效能考慮的，因為在進行邏輯與等一系列位運算的時候，是需要將兩個陣列中的元素一一進行位運算的，而使用 long 的一個好處是陣列的長度減少了，從而遍歷的次數也就減少了。

總之就是和場景有關係，抽象概念上就有點類似 Java 中字串的匹配演算法（indexOf）使用的是 BF（暴力檢索）演算法一樣，為什麼不用更優解呢？還不是因為更優解在少量資料的情況下反而是拖後腿的那一位。

2、成員變數

3、構造方法

有參構造的引數代表的是元素的長度，不是陣列的大小，比如傳參1和64，陣列的長度均為1，整個size均為64，但是傳參65的時候，陣列長度為2，size為128，因為陣列是long型別，而一個long可以儲存64個bit元素。

4、 initWords 函式

該函式只在兩個構造方法中呼叫，作用是初始化陣列，而陣列的長度則會通過 workIndex(nbits-1) + 1 來獲取。

5、 wordIndex 函式

這個方法很重要，它是用來獲取某個數在 words 陣列中的索引的，採用的演算法是將這個數右移6位，why？因為 bitIndex >> 6 == bitIndex / (2^6) == bitIndex /64，而long就是64個位元組。

6、ensureCapacity 函式

又是一個很重要的方法，作用是動態擴容，因為在初始化的時候，我們並不知道將來會需要儲存多大的資料。

7、size 和 length 函式

size 方法很好理解，返回的其實就是陣列的空間大小，即陣列長度*64。而 length 方法，看原始碼其實有點晦(qu)澀(qiao)，簡言之，返回的是 BitSet 的“邏輯大小”，即BitSet 中最高設定位的索引加 1 。

舉個栗子，一個 BitSet 中儲存了兩個元素，10和50，那麼，此時這個 BitMap 的：size = 64；length = 51。

8、題外話

其餘的 set、get等方法暫不贅述，總之一句話，想要深刻理解 BitSet 的原始碼，對於二進位制的計算需要有一定的掌握水準。不得不承認，BitSet 的原始碼，很多細節的設計太精妙了。

四、擴充

如要論述擴充，要麼就是論述場景的高層次應用，要麼就是論述此演算法的不足之處，此處各提一個點：

① 不足：資料稀疏問題，比如三個元素(1,100,10000000)，則需要初始化的長度為 10000000，很不合理，此時可以使用 Roaring BitMap 演算法來解決，而 Java 程式可以使用goolge的 **EWAHCompressedBitmap **來解決。

② 擴充：資料碰撞問題，比如上文提到的爬蟲應用場景是將URL進行雜湊運算，然後將hash值存入BitMap之中，但是不得不面臨一個尷尬的情況，那就是雜湊碰撞，而布隆演算法（Bloom Filter）就可以解決這個問題，為什麼是擴充呢？因為它是以 BitMap 為基礎的排重演算法。

原文地址：www.jetchen.cn/algorithm-b…

JDK中的BitMap實現之BitSet原始碼分析
2022-01-03
JDK原始碼
通過了解RejectedExecutionException來分析ThreadPoolExecutor原始碼
2019-02-18
Exceptionthread原始碼
Mybatis原始碼分析（三）通過例項來看typeHandlers
2019-03-10
MyBatis原始碼
【譯】通過閱讀原始碼來提高 JS 知識
2019-07-18
原始碼JS
通過原始碼理解 Java 執行緒池的核心引數
2019-03-17
原始碼Java執行緒
理解Android Bitmap
2019-03-04
Android
Universal-Image-Loader原始碼解解析---display過程 + 獲取bitmap過程
2018-03-30
原始碼
Golang slice 從原始碼來理解
2019-09-12
Golang原始碼
透過原始碼理解Rarp協議
2020-09-26
原始碼協議
通過原始碼分析Mybatis的功能
2020-08-01
原始碼MyBatis
演算法---BitMap
2020-05-05
演算法
linux下通過原始碼安裝git
2018-09-20
Linux原始碼Git
通過原始碼理解 vue beforecreated 週期與 created 週期之間發生了什麼
2019-04-11
原始碼Vue
通過GitHub Blame深入分析Redux原始碼
2019-02-23
GithubRedux原始碼
通過原始碼學習@functools.lru_cache
2020-07-09
原始碼
Dubbo原始碼學習之-通過原始碼看看dubbo對netty的使用
2020-08-22
原始碼Netty
BitMap演算法詳解
2019-03-09
演算法
詳解BitMap演算法
2019-05-28
演算法
通過.net core原始碼看下Dictionary的實現
2019-01-16
原始碼
閱讀原始碼，通過LinkedList回顧基礎
2020-11-03
原始碼
HDU5972Regular Number(ShiftAnd演算法 bitset)
2018-10-10
演算法
通過一個案例理解 JWT
2018-09-20
JWT
通達信過前高選股指標公式原始碼
2024-03-10
指標公式原始碼
通過WordCount解析Spark RDD內部原始碼機制
2020-09-02
Spark原始碼
Jwt隱藏大坑，通過原始碼幫你揭祕
2022-05-25
JWT原始碼
通過OpenGL理解前端渲染原理（1）
2019-07-31
前端
通過 bilibili 的 discovery 理解下 cap
2021-06-08
通過transmittable-thread-local原始碼理解執行緒池執行緒本地變數傳遞的原理
2020-05-02
MITthread原始碼執行緒變數
Android8.1 原始碼修改之通過黑名單遮蔽系統簡訊功能和來電功能
2019-05-09
Android原始碼
通過模擬vuex的核心原始碼快速掌握其原理
2019-07-30
Vue原始碼
聊天平臺原始碼，通過MediaStore獲取縮圖模糊
2021-10-29
原始碼AST
android 關於Bitmap壓縮處理解析
2018-07-10
Android
線上直播原始碼，通過手機號簡訊接收驗證碼
2022-03-04
原始碼
透過迴圈引用問題來分析Spring原始碼
2021-09-09
Spring原始碼
從原始碼去理解Handler
2019-03-28
原始碼
ReentrantReadWriteLock原始碼分析及理解
2020-06-04
原始碼
從HotSpot原始碼理解DirectByteBuffer
2022-07-04
HotSpot原始碼
PReact10.5.13原始碼理解
2021-04-02
React原始碼