【轉】kafka-檔案儲存機制詳解

yoylee_web發表於2019-01-03

原文網址 : https://blog.csdn.net/csdn___lyy/article/details/85696954

文章轉自“美團技術部落格”：https://tech.meituan.com/

Kafka是什麼

Kafka是最初由Linkedin公司開發，是一個分散式、分割槽的、多副本的、多訂閱者，基於zookeeper協調的分散式日誌系統(也可以當做MQ系統)，常見可以用於web/nginx日誌、訪問日誌，訊息服務等等，Linkedin於2010年貢獻給了Apache基金會併成為頂級開源專案。

1.前言

一個商業化訊息佇列的效能好壞，其檔案儲存機制設計是衡量一個訊息佇列服務技術水平和最關鍵指標之一。

下面將從Kafka檔案儲存機制和物理結構角度，分析Kafka是如何實現高效檔案儲存，及實際應用效果。

2.Kafka檔案儲存機制

Kafka部分名詞解釋如下：

Broker：訊息中介軟體處理結點，一個Kafka節點就是一個broker，多個broker可以組成一個Kafka叢集。
Topic：一類訊息，例如page view日誌、click日誌等都可以以topic的形式存在，Kafka叢集能夠同時負責多個topic的分發。
Partition：topic物理上的分組，一個topic可以分為多個partition，每個partition是一個有序的佇列。
Segment：partition物理上由多個segment組成，下面2.2和2.3有詳細說明。
offset：每個partition都由一系列有序的、不可變的訊息組成，這些訊息被連續的追加到partition中。partition中的每個訊息都有一個連續的序列號叫做offset,用於partition唯一標識一條訊息.

分析過程分為以下4個步驟：

topic中partition儲存分佈
partiton中檔案儲存方式
partiton中segment檔案儲存結構
在partition中如何通過offset查詢message

通過上述4過程詳細分析，我們就可以清楚認識到kafka檔案儲存機制的奧祕。

2.1 topic中partition儲存分佈

假設實驗環境中Kafka叢集只有一個broker，xxx/message-folder為資料檔案儲存根目錄，在Kafka broker中server.properties檔案配置(引數log.dirs=xxx/message-folder)，例如建立2個topic名稱分別為report_push、launch_info, partitions數量都為partitions=4

儲存路徑和目錄規則為：

xxx/message-folder

|--report_push-0
|--report_push-1
|--report_push-2
|--report_push-3
|--launch_info-0
|--launch_info-1
|--launch_info-2
|--launch_info-3

在Kafka檔案儲存中，同一個topic下有多個不同partition，每個partition為一個目錄，partiton命名規則為topic名稱+有序序號，第一個partiton序號從0開始，序號最大值為partitions數量減1。

如果是多broker分佈情況下：

下面以一個Kafka叢集中4個Broker舉例，建立1個topic包含4個Partition，2 Replication；資料Producer流動如圖所示：

(1)

(2)當叢集中新增2節點，Partition增加到6個時分佈情況如下：

副本分配邏輯規則如下：

在Kafka叢集中，每個Broker都有均等分配Partition的Leader機會。
上述圖Broker Partition中，箭頭指向為副本，以Partition-0為例:broker1中parition-0為Leader，Broker2中Partition-0為副本。
上述圖種每個Broker(按照BrokerId有序)依次分配主Partition,下一個Broker為副本，如此迴圈迭代分配，多副本都遵循此規則。

副本分配演算法如下：

將所有N Broker和待分配的i個Partition排序.
將第i個Partition分配到第(i mod n)個Broker上.
將第i個Partition的第j個副本分配到第((i + j) mod n)個Broker上.

2.2 partiton中檔案儲存方式

下面示意圖形象說明了partition中檔案儲存方式:

圖1

每個partion(目錄)相當於一個巨型檔案被平均分配到多個大小相等segment(段)資料檔案中。但每個段segment file訊息數量不一定相等，這種特性方便old segment file快速被刪除。
每個partiton只需要支援順序讀寫就行了，segment檔案生命週期由服務端配置引數決定。

這樣做的好處就是能快速刪除無用檔案，有效提高磁碟利用率。

2.3 partiton中segment檔案儲存結構

讀者從2.2節瞭解到Kafka檔案系統partition儲存方式，本節深入分析partion中segment file組成和物理結構。

segment file組成：由2大部分組成，分別為index file和data file，此2個檔案一一對應，成對出現，字尾".index"和“.log”分別表示為segment索引檔案、資料檔案.
segment檔案命名規則：partion全域性的第一個segment從0開始，後續每個segment檔名為上一個segment檔案最後一條訊息的offset值。數值最大為64位long大小，19位數字字元長度，沒有數字用0填充。

下面檔案列表是筆者在Kafka broker上做的一個實驗，建立一個topicXXX包含1 partition，設定每個segment大小為500MB,並啟動producer向Kafka broker寫入大量資料,如下圖2所示segment檔案列表形象說明了上述2個規則：

圖2

以上述圖2中一對segment file檔案為例，說明segment中index<—->data file對應關係物理結構如下：

圖3

上述圖3中索引檔案儲存大量後設資料，資料檔案儲存大量訊息，索引檔案中後設資料指向對應資料檔案中message的物理偏移地址。

其中以索引檔案中後設資料3,497為例，依次在資料檔案中表示第3個message(在全域性partiton表示第368772個message)、以及該訊息的物理偏移地址為497。

從上述圖3瞭解到segment data file由許多message組成，下面詳細說明message物理結構如下：

圖4

引數說明：

關鍵字	解釋說明
8 byte offset	在parition(分割槽)內的每條訊息都有一個有序的id號，這個id號被稱為偏移(offset),它可以唯一確定每條訊息在parition(分割槽)內的位置。即offset表示partiion的第多少message
4 byte message size	message大小
4 byte CRC32	用crc32校驗message
1 byte “magic"	表示本次釋出Kafka服務程式協議版本號
1 byte “attributes"	表示為獨立版本、或標識壓縮型別、或編碼型別。
4 byte key length	表示key的長度,當key為-1時，K byte key欄位不填
K byte key	可選
value bytes payload	表示實際訊息資料

2.4 在partition中如何通過offset查詢message

例如讀取offset=368776的message，需要通過下面2個步驟查詢。

第一步查詢segment file

上述圖2為例，其中00000000000000000000.index表示最開始的檔案，起始偏移量(offset)為0.第二個檔案00000000000000368769.index的訊息量起始偏移量為368770 = 368769 + 1.同樣，第三個檔案00000000000000737337.index的起始偏移量為737338=737337 + 1，其他後續檔案依次類推，以起始偏移量命名並排序這些檔案，只要根據offset **二分查詢**檔案列表，就可以快速定位到具體檔案。

當offset=368776時定位到00000000000000368769.index|log
第二步通過segment file查詢message

通過第一步定位到segment file，當offset=368776時，依次定位到00000000000000368769.index的後設資料物理位置和00000000000000368769.log的物理偏移地址，然後再通過00000000000000368769.log順序查詢直到offset=368776為止。

從上述圖3可知這樣做的優點，segment index file採取稀疏索引儲存方式，它減少索引檔案大小，通過mmap可以直接記憶體操作，稀疏索引為資料檔案的每個對應message設定一個後設資料指標,它比稠密索引節省了更多的儲存空間，但查詢起來需要消耗更多的時間。

3 Kafka檔案儲存機制–實際執行效果

實驗環境：

Kafka叢集：由2臺虛擬機器組成
cpu：4核
實體記憶體：8GB
網路卡：千兆網路卡
jvm heap: 4GB
詳細Kafka服務端配置及其優化請參考：kafka server.properties配置詳解

圖5

從上述圖5可以看出，Kafka執行時很少有大量讀磁碟的操作，主要是定期批量寫磁碟操作，因此操作磁碟很高效。這跟Kafka檔案儲存中讀寫message的設計是息息相關的。Kafka中讀寫message有如下特點:

寫message

訊息從java堆轉入page cache(即實體記憶體)。
由非同步執行緒刷盤,訊息從page cache刷入磁碟。

讀message

訊息直接從page cache轉入socket傳送出去。
當從page cache沒有找到相應資料時，此時會產生磁碟IO,從磁

盤Load訊息到page cache,然後直接從socket發出去

4.總結

Kafka高效檔案儲存設計特點

Kafka把topic中一個parition大檔案分成多個小檔案段，通過多個小檔案段，就容易定期清除或刪除已經消費完檔案，減少磁碟佔用。
通過索引資訊可以快速定位message和確定response的最大大小。
通過index後設資料全部對映到memory，可以避免segment file的IO磁碟操作。
通過索引檔案稀疏儲存，可以大幅降低index檔案後設資料佔用空間大小。

參考

1.Linux Page Cache機制

2.Kafka官方文件

分散式檔案儲存FastDFS（七）FastDFS配置檔案詳解
2018-04-02
分散式AST
[轉帖]OceanBase 儲存引擎詳解
2024-03-14
儲存引擎
分散式儲存glusterfs詳解【轉】
2024-11-13
分散式
儲存機制
2024-05-14
塊儲存檔案儲存物件儲存
2020-05-28
物件
Web儲存機制
2018-11-09
Web
檔案儲存
2019-05-23
資料儲存--檔案儲存
2024-05-26
資料儲存(歸檔解檔，沙河儲存)
2018-03-27
linux核心IDR機制詳解【轉】
2019-03-15
Linux
Android 檔案儲存
2019-05-13
Android
CSV檔案儲存
2024-06-09
儲存json檔案
2024-07-13
JSON
Flutter持久化儲存之檔案儲存
2019-03-06
Flutter持久化
FastDFS 海量小檔案儲存解決之道
2022-04-26
AST
Conflux的儲存抵押機制
2022-01-20
UX
Kafka 訊息儲存機制
2021-04-12
Kafka
python 儲存檔案json
2020-11-10
PythonJSON
hive檔案儲存格式
2020-11-29
Hive
物件儲存 vs 檔案儲存 vs 塊儲存，選哪個？
2020-09-17
物件
OceanBase 儲存引擎詳解
2022-03-18
儲存引擎
【轉】mysql儲存圖片技術決定：儲存二進位制檔案還是隻儲存圖片相對路徑，圖片放在硬碟上面?
2018-11-29
MySql硬碟
golang實現檔案上傳並轉存資料庫功能詳解
2022-08-11
Golang資料庫
od 轉儲二進位制檔案常用命令
2018-08-06
Android中的資料儲存之檔案儲存
2020-03-11
Android
Android 檔案儲存淺析
2020-07-26
Android
IPFS的檔案儲存模式
2020-10-20
模式
修改並儲存hosts檔案
2020-10-03
企業檔案安全儲存
2021-06-16
Springboot整合MongoDB儲存檔案、讀取檔案
2023-04-14
Spring BootMongoDB
mongo 儲存過程詳解
2018-12-15
Go儲存過程
Redis 持久化儲存詳解
2019-09-13
Redis持久化
OpenTSDB 資料儲存詳解
2020-07-16
雲原生儲存詳解：容器儲存與 K8s 儲存卷
2020-06-23
K8S
Serverless 使用阿里雲OOS將http檔案轉存到物件儲存
2024-06-07
Server阿里HTTP物件
Android頁面跳轉與返回機制詳解
2024-09-28
Android
InnoDB儲存引擎鎖機制（一、案例）
2018-11-06
儲存引擎
如何將MAC的檔案儲存至NAS網路儲存？
2019-08-15
Mac