如何選擇一個Kafka叢集中的主題分割槽的數量

喜馬拉雅以南發表於2020-10-30

原文網址 : https://blog.csdn.net/qq_26125865/article/details/109395592

文章目錄

Kafka叢集中分割槽應該設定多少比較合適，這是一個面對眾多開發者共同的難題，這篇文章的目標就是來解釋一些重要的因素，同時會提供一些簡單的公式。

更多的分割槽可使吞吐量更大

首先我們要有個認知，那就是分割槽(partition)是Kafka中的併發單位。
從生產者和Broker層面來說，寫入訊息到不同的分割槽是一種完全的併發行為，所以例如壓縮等重量級操作，可以使用更多的硬體資源來解決。
在消費者層面，Kafka總是將單個分割槽的資料交由一個消費執行緒進行消費，因此，在消費者側的併發程度是由消費的分割槽數量約束的。
由上述總結可知，通常情況下在Kafka叢集內，更多的partition能夠獲得更大的吞吐量。

通過如下公式可以根據吞吐量粗略的預估出需要建立多少個分割槽。首先你需要可以獲得單個分割槽的生產量，我們使用字母p表示，消費量用c表示，比如說你的目標吞吐量為t，那麼你則需要至少max(t/p,t/c)個分割槽。每個分割槽吞吐量依賴於生產者的配置，如批處理條數、壓縮編碼、已知的型別。副本因素等等。但是通常一個生產者在基準測試中的表現能達到10MB/sec，消費者的吞吐量取決於應用程式，消費者的速度與每條訊息的處理邏輯相關，因此消費者的消費速度需要你自行進行基準測試。

儘管可以隨著時間不斷增加分割槽數量，但是如果生成帶有key的訊息，則必須注意。釋出送帶有key的訊息時，Kafka根據key的雜湊確定將訊息對映到哪個分割槽。這保證了具有相同key的訊息始終被路由到相同的分割槽。對於某些應用程式，此種特性可能很重要，因為每個分割槽內訊息總是被順序遞送的，也就是同一個分割槽那麼消費者可以做到順序消費。如果分割槽數量改變，那麼可能會打破原有的順序消費邏輯，從而這種保證也不再成立。為了避免這種情況，一般採用對分割槽過度分割槽，你可以決定未來一兩年的吞吐量，從而確定分割槽數。一開始你可以只擁有一個基於你當前團兔糧的小型kafka叢集，隨著時間增長，你可以成比例地增加broker到你的現有的及群眾，並將部分已存在的分割槽移動至新的broker中，這個方法在保持你吞吐量增長的同時，不會破壞你在程式中對訊息key的使用。

更多的分割槽需要更多檔案控制程式碼

每個分割槽均會在broker所在的檔案系統中對映一個檔案目錄，在日誌目錄內，每個日誌段將會有個兩個檔案，一個是索引檔案，另一個是實際的資料。當前，在kafka中broker會開啟每個日誌段的索引檔案和資料檔案控制程式碼，因此分割槽越多，則在底層作業系統中配置檔案控制程式碼限制就需要越高。

更多的分割槽增加不可用性

Kafka叢集內部支援副本分片，從而達到高可用和永續性，一個分割槽可以有多個副本，每個都儲存在不同的borker上，副本中一個被指定為leader且其他副本將會成為follower，kafka管理所有的那些副本的複製並確保副本之間的同步，所有的生產者和消費者所傳送的請求均是由leader副本進行服務的，當broker當機，在這個broker上的leader副本將短暫不可用，kafka將會自動移動不可用分割槽的leader角色副本到其他副本上，繼續提供服務。這個處理有kafka的broker中控制角色進行制定，它涉及為ZooKeeper中每個受影響的分割槽讀寫一些後設資料。當前，對ZooKeeper的操作是在控制器中序列完成的。

更多的分割槽更高的端到端的延遲

在kafka中我們定義，從生產者傳送訊息到消費者準備消費所用的時間為端到端延遲。kafka只會在提交(commit)訊息之後再想消費者傳送訊息，也就是當訊息在所有副本中同步之後才會提交訊息，因此提交一個訊息的花費時間可能是端到端延遲的很大一部分時間。預設情況下，對於只有兩個broker的所有分割槽來說，broker僅僅使用一個單執行緒複製資料到另一個broker的副本中。我們實驗表明，從一個broker複製1000個分割槽到另一個broker會花費大概20ms的時間，這意味著最短就是20ms。

更多的分割槽需要更多的記憶體

相關文章

如何為Kafka叢集選擇合適的Topic/Partitions數量
2018-07-24
Kafka
如何為Kafka叢集確定合適的分割槽數以及分割槽數過多帶來的弊端
2021-02-03
Kafka
Kafka訊息分發、主題分割槽與消費組的概念
2018-03-14
Kafka
如何確定Kafka的分割槽數、key和consumer執行緒數
2018-07-24
Kafka執行緒
Kafka 分割槽
2022-05-30
Kafka
解密Kafka主題的分割槽策略：提升實時資料處理的關鍵
2023-11-22
解密Kafka
kafka指定key進行分割槽遇到的問題
2024-08-30
Kafka
伺服器集中化管理如何選擇源主機
2020-03-04
伺服器
mysql 5.7.11查詢分割槽表的一個問題
2018-08-10
MySql
裝win10分割槽時選擇什麼格式_win10系統安裝分割槽格式的選擇方法
2020-06-15
Win10
Kafka 與 RabbitMQ 如何選擇使用哪個？
2021-08-28
KafkaMQ
Kafka - 自定義分割槽器
2023-03-15
Kafka
在Linux中，如何建立一個分割槽？
2024-04-27
Linux
MySQL的分割槽（一）
2020-06-20
MySql
詳細解析kafka之kafka分割槽和副本
2021-09-09
Kafka
SQL Server大分割槽表沒有空分割槽的情況下如何擴充套件分割槽的方法
2022-09-30
SQLServer套件
win10系統硬碟如何分割槽_win10主硬碟怎麼分割槽
2020-07-05
Win10硬碟
Kafka分割槽分配策略（Partition Assignment Strategy）
2021-01-26
Kafka
MySQL 分割槽表，為什麼分割槽鍵必須是主鍵的一部分？
2021-12-21
MySql
win10系統下將邏輯分割槽改為主分割槽的方法
2019-04-03
Win10
淺析Win10系統主分割槽和邏輯分割槽的區別
2020-01-25
Win10
Seven 儲存結構與磁碟劃分主分割槽交換分割槽的作用！
2020-10-17
Oracle12c：建立主分割槽、子分割槽，實現自動分割槽插入效果
2020-04-04
Oracle
騰訊雲CVM主機在原分割槽（主分割槽）上增加磁碟空間
2024-06-11
一個bug引發的Android分割槽儲存的思考
2024-04-11
Android
在Linux中，如何格式化一個磁碟分割槽？
2024-04-27
Linux
【kafka】-分割槽-消費端負載均衡
2023-04-26
Kafka負載
怎麼樣選擇一個合適的虛擬主機
2020-07-16
filebeat將日誌傳送到kafka不同分割槽的方法
2020-12-03
Kafka
用PriorityQueue解決選擇最小的K個數問題
2019-03-18
[oracle] expdp 匯出分割槽表的分割槽
2021-01-28
Oracle
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
一文徹底掌握Apache Hudi的主鍵和分割槽配置
2021-04-12
Apache
Kubernetes EKS 叢集中的 IP 地址分配問題
2023-04-01
kafkaer：基於模板的 Kafka 主題/叢集/ACL 管理自動化
2022-07-06
Kafka
[專案踩坑] MySQL 分割槽:分割槽鍵和唯一索引主鍵的關係，解決報錯 A PRIMARY KEY
2020-05-28
MySql索引
hive Sql的動態分割槽問題
2024-04-01
HiveSQL
ent M2M模型在pxc叢集中的一個大坑
2023-05-18
模型