基於二叉樹的高效IP檢索格式MMDB

leavygood發表於2023-02-14

原文網址 : https://www.cnblogs.com/leavygood/p/17109967.html

二叉樹

一、MMDB簡介

MMDB(MaxMind Database) 是MaxMind推出的一個資料儲存和檢索的資料庫格式，用於旗下針對IP檢索和儲存的Geo產品。

IP格式由二進位制位元陣列組成，很容易想到每個位元對應二叉樹一個節點，可以說二叉樹檢索特別適合於IP格式。

MMDB的構造過程正是把一顆資料位於葉子節點的二叉樹進行序列化。

序列化後是位元組陣列，和其他檢索格式都是反序列化為結構化的記憶體形式不同，MMDB檢索時把整個mmdb檔案載入為一個位元組陣列即可。

檢索過程在位元組陣列上操作，由於每個節點大小固定，透過簡單記憶體計算即可完成節點定位，不需要額外生成其他中間結構，可以說非常簡潔和高效。

Maxmind的GeoIP產品用於檢索以下網段的geo資訊，其中最左一列是網段，第二列是geoname_id。根據網段找到geoname_id，再根據geoname_id找到下圖的資料。

二、構造過程

構造過程是生成一顆二叉檢索樹的過程。

假設只儲存一個網段“110”的資料，則可以得到二叉樹為：

只有葉子節點會儲存指向資料的引用。

三、MMDB總體格式

二叉樹經過序列化會得到一個位元組陣列，資料格式如下圖：

節點序列儲存二叉樹的節點，資料資訊則儲存在資料序列中，資料使用MMDB序列化格式（類似json）。

第三部分為後設資料，儲存版本號、生成時間、資料庫型別、IP版本、語言、節點個數、節點記錄規格等。檢索過程需要使用這些進行記憶體定址來完成節點位置的計算。

第一個分隔符為16位元組的"NULL"，即16個0。

第二個分隔符為"\xAB\xCD\xEFMaxMind.com"。

四、節點序列說明

節點序列等於一個節點陣列，每個節點由兩個記錄組成，分別對應二叉樹的左孩子和右孩子。

在IP檢索中，位元0對應第一個記錄，位元1對應第二個記錄。

如上圖所示，包含3個節點，第一個節點的兩個記錄為3和1，第二個節點為3和2，第三個節點為19和3。

當記錄數等於節點數3時，表示沒找到資料。當記錄數大於節點數3時，則為資料節點的記錄值。

資料偏移量的計算公式：資料偏移量 = 記錄值 - 節點個數 - 16（分隔符的長度）。

第三個節點記錄19表示資料偏移量為0，19-3（節點數）-16。

五、檢索演算法

在一個總節點數為3的mmdb資料庫上，網段“110”的檢索過程

六、資料段說明

資料序列由資料頭和資料組成，資料頭記錄資料型別和資料大小，目前MMDB支援多種資料型別，包括int, string, map, bytes等。

程式讀到位元組陣列後透過反序列化得到實際資料。

七、實驗例子

1、構造一個網段為“192.2.10.0/3”，對應二進位制網路“110”的節點，資料為{"iso":156,"country_name":"China"},生成的節點序列為：

注意：上圖每三個位元組儲存一個記錄，中間16個0是分隔符。格式化列印後得到下圖，符號“-”表示空節點：

可以看到“110”網段根據二叉樹檢索演算法得到資料段的偏移量19，則資料段偏移量為19-3（節點數）-16=0。

2、再加入一個網段為“64.2.10.0/3”，對應二進位制網路“010”的節點，資料為{"iso":826,"country_name":"England"},生成的節點序列為：

格式化列印後得到下圖，符號“-”表示空節點：

可以看到“010”網段根據二叉樹檢索演算法得到資料段的偏移量21，則資料段偏移量為21-5（節點數）-16=0。而此時“110”網段的資料段的偏移量變成了50，則資料段偏移量為50-5（節點數）-16=29。

八、總結

1、生成過程使用二叉樹。

2、儲存和檢索都是序列化位元組陣列格式。

3、MMDB是記憶體資料庫。

參考連結

MaxMind DB File Format Specification

Enriching MMDB files with your own data using go

Building your own MMDB database for fun and profit

基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
13、線索二叉樹
2024-09-29
二叉樹
基於Lucene的全文檢索實踐
2021-11-07
二叉樹（順序儲存二叉樹，線索化二叉樹）
2020-10-29
二叉樹
線索二叉樹的原理及建立
2021-04-28
二叉樹
基於雜湊的影象檢索技術
2018-07-05
一種基於概率檢索模型的大資料專利檢索方法與流程
2022-05-10
模型大資料
基於 Tire 樹的敏感詞檢測
2019-04-24
線索二叉樹的構造和遍歷
2019-11-13
二叉樹
線索二叉樹【定義、應用、線索化、遍歷】
2018-04-19
二叉樹
二叉樹的右檢視 (中等)
2020-02-15
二叉樹
中序線索二叉樹的建立與遍歷
2018-12-22
二叉樹
java實現-資料結構之二叉樹（三）：線索化二叉樹
2020-10-14
Java資料結構二叉樹
關於二叉樹
2024-08-19
二叉樹
199. 二叉樹的右檢視
2024-12-08
二叉樹
中序線索二叉樹的構造和遍歷
2019-11-13
二叉樹
TS版LangChain實戰：基於文件的增強檢索（RAG）
2023-11-28
LangChain
常用資料結構之線索二叉樹
2020-10-02
資料結構二叉樹
基於資訊增益和基尼指數的二叉決策樹
2024-11-07
深入學習二叉樹 (一) 二叉樹基礎
2019-06-13
二叉樹
leetcode 199. 二叉樹的右檢視
2020-11-19
LeetCode二叉樹
LeetCode199.二叉樹的右檢視
2024-07-24
LeetCode二叉樹
LeetCode-199-二叉樹的右檢視
2022-04-19
LeetCode二叉樹
美團外賣基於GPU的向量檢索系統實踐
2024-04-12
GPU
論如何畫線索二叉樹[資料結構]
2020-12-16
二叉樹資料結構
二叉樹基礎上
2018-11-14
二叉樹
滿二叉樹、完全二叉樹、平衡二叉樹、二叉搜尋樹（二叉查詢樹）和最優二叉樹
2020-11-02
二叉樹
在C#中基於Semantic Kernel的檢索增強生成（RAG）實踐
2024-10-19
C#
【資料結構&演算法】12-線索二叉樹
2021-11-12
資料結構演算法二叉樹
基於深度學習分析與檢索海量短視訊內容
2019-03-03
深度學習
ACL 2020 | 基於稠密段落檢索的開放域問答系統技術
2020-05-29
資料結構中的樹(二叉樹、二叉搜尋樹、AVL樹)
2020-08-04
資料結構二叉樹
基於 EventBridge + DashVector 打造 RAG 全鏈路動態語義檢索能力
2024-11-05
ByteHouse高效能向量檢索實踐——“以圖搜圖”
2024-08-02
如何高效地儲存與檢索大規模的圖譜資料？
2021-09-11
排序二叉樹和平衡二叉樹
2020-09-29
排序二叉樹
ES：檢索
2018-11-07
pta檢索
2020-11-22