高效儲存的秘訣：bitmap 資料結構在標籤中的應用

袋鼠云数栈發表於2024-07-03

原文網址 : https://www.cnblogs.com/DTinsight/p/18282128

在當今大資料和資訊爆炸的時代，如何有效地管理和查詢海量的資料成為了企業和開發者面臨的重大挑戰。其中，標籤系統作為資料管理中的一種重要手段，被廣泛應用於使用者畫像、商品分類、內容推薦等多個場景。然而，隨著標籤數量的急劇增加，傳統的資料儲存和查詢方式已難以滿足高效率、低延遲的需求。在這種背景下，Bitmap 資料結構作為一種高效的位級資料處理技術，開始在標籤系統中展現出其獨特的優勢。

透過本文將會分享 Bitmap 方案在標籤中的應用實踐。

標籤和群組

標籤用於描述一組具有相同特徵的實體物件（例如實體可以是使用者，物件就是具體的某一個人）。它能直接關聯到具體的資料項、文件、產品、使用者行為等，以實現快速檢索、過濾和分類的目的。標籤常被用於使用者畫像構建、行為分析以及個性化推薦，透過分析使用者與標籤的互動，系統能更精準地理解使用者需求。

標籤系統的核心在於透過簡單直接的關鍵詞關聯，提高資訊的可發現性和管理效率，適應數字化時代資訊海量增長的需求。

群組

群組提供了一種結構化的方式來整理和操作具有共同屬性的標籤集合，將具有相似特徵、類別或關係的標籤集合在一起，這種結構允許使用者更高效地管理和操作相關聯的標籤集合，而不是單獨處理每一個標籤。

基於大寬表儲存標籤

標籤儲存在大寬表中，每增加一個新的欄位就會在大寬表中新增一個欄位，此時基於標籤的圈群計算會基於這張大寬表進行計算。

file

使用這種結構會重複儲存大量的標籤值，造成儲存資源的浪費，例如上述表格中的 tag_v1 值在多個行中都有進行儲存。在進行標籤的圈群場景時效率不高，例如要統計具有 tag_n1 標籤、標籤值為 tag_v2 且具有 tag_n2 標籤、標籤值為 tag_v3 的實體 ID，此時 SQL 的執行效率較低。

基於 bitmap 資料結構儲存標籤

bitmap 即為一個 bit 陣列，一個 bit 的取值有兩種：0 或 1。將一個資料狀態較少的變數，轉換為一個狀態位 bit（只有0和1兩種狀態），儲存到一個順序的 bit 陣列中，從而在海量資料中快速定位所需資料狀態的資料。這種做法不僅節省記憶體空間，而且能夠快速定位資料位置，在海量資料的排序、查詢、去重相關處理中有極高的效率。

file

bitmap 特性

● 最佳化查詢效能

由於資料以位的形式緊密排列，查詢某個元素是否存在可以透過位運算直接完成，時間複雜度接近O(1)，非常高效。使用 bitmap 可以在進行基數統計、唯一值計數等操作時顯著提升效率，特別是在資料有大量重複且需要快速響應的場景下。例如，對於網站訪問日誌分析，bitmap 可以快速判斷不同頁面的獨立訪問者數量。

● 空間效率較高

bitmap 利用每個位元位表示一個元素的狀態（通常是存在或不存在），相比傳統陣列或列表，可以極大節省儲存空間。例如，一個能儲存 32 個整數的陣列，在 Bitmap 中只需一個位元組即可表示 32 個元素的狀態。

● 易於進行集合運算

bitmap 支援快速進行集合的交、並、差等運算，這對於處理資料間的關聯查詢非常有用。

● 適用於統計

bitmap 能夠快速進行計數操作，如統計集合中元素的數量，或統計滿足特定條件的元素數量，常用於大資料分析和資料庫索引中。

● 適應連續性和稀疏性

bitmap 最適合用於表示大量連續整數或稀疏資料集中的元素存在性，對於非連續或隨機分佈的資料，其優勢可能不那麼明顯。

在標籤中如何使用 bitmap 資料型別

對於標籤來講，一個實體 ID 和一個標籤（標籤名+標籤值）的關係可以有兩種——有這個標籤和無這個標籤。那麼我們在設計標籤結果表的時候就可以使用如下的表結構：

file

對比可以看到，使用 bitmap 資料結構在標籤數量較小的情況下可以節省更多的儲存資源。

entity_id_bitmap 資料結構為 bitmap，但是在大多數情況下實體 ID 的資料型別並不是數值型別的，可能為字元型別，由於 bitmap 只能直接支援整數型別，這就會導致無法將實體 ID 存入 bitmap 中，並且即使使用數值型別儲存實體 ID，若不是自增型別的數值，可能會由於資料離散值太大，導致 bitmap 過長從而佔用儲存變大，所以需要將實體 ID 轉化為自增的數值型別。