Kafka效能測試例項

哥不是小蘿莉發表於2018-12-09

1.概述

在分散式實時資料流場景下，隨著資料量的增長，對Kafka叢集的效能和穩定性的要求也很高。本篇部落格將從生產者和消費者兩方面來做效能測試，針對具體的業務和資料量，來調優Kafka叢集。

2.內容

2.1 測試環境

本次測試的環境資訊由三臺物理機組成，具體資訊如下所示：

2.2 測試工具

Kafka系統提供了測試工具kafka-producer-perf-test.sh和kafka-consumer-perf-test.sh，通過該工具可以對生產者效能和消費者效能進行測試，獲取一組最佳的引數值，進而提升生產者的傳送效率和消費者的讀取效率。這裡如果需要實現帶有執行緒引數功能的工具，可以修改工具原始碼，新建一個kafka-producer-perf-test-0.8.sh指令碼，實現內容如下：

# 使用老版本的ProducerPerformance工具類
exec $(dirname $0)/kafka-run-class.sh kafka.tools.ProducerPerformance "$@"

2.2.1 生產者測試引數

2.2.2 消費者測試引數

3.生產者測試

生產者測試，分別從執行緒數、分割槽數、副本數、Broker數、同步與非同步模式、批處理大小、訊息長度大小、資料壓縮等維度來進行。

3.1 執行緒數

建立一個擁有6個分割槽、1個副本的Topic，設定不同的執行緒數併傳送相同的資料量，檢視效能變化。測試指令碼如下：

# 建立主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf --partitions 6 --replication-factor 1

# 設定1個執行緒數
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf --threads 1 --broker-list  dn1:9092, dn2:9092,
 dn3:9092

# 設定10個執行緒數
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf --threads 10 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

# 設定20個執行緒數
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf --threads 20 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

# 設定25個執行緒數
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf --threads 25 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

# 設定30個執行緒數
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf --threads 30 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

3.1.1 測試結果

3.1.2 結論

向一個擁有6個分割槽、1個副本的Topic中，傳送500萬條訊息記錄時，隨著執行緒數的增加，每秒傳送的訊息記錄會逐漸增加。線上程數為25時，每秒傳送的訊息記錄達到最佳值，隨後再增加執行緒數，每秒傳送的訊息記錄數反而會減少。

3.2 分割槽數

（1）新建一個擁有12個分割槽、1個副本的主題；
（2）新建一個擁有24個分割槽、1個副本的主題；
（3）向擁有12個分割槽、1個副本的主題中傳送相同數量的訊息記錄，檢視效能變化；
（4）向擁有24個分割槽、1個副本的主題中傳送相同數量的訊息記錄，檢視效能變化。

執行命令如下：

# 建立一個擁有12個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf_p12 --partitions 12
 --replication-factor 1
# 建立一個擁有24個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf_p24 --partitions 24
 --replication-factor 1

# 用一個執行緒傳送資料到擁有12個分割槽的主題中
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_p12 --threads 1 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

# 用一個執行緒傳送資料到擁有24個分割槽的主題中
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_p24 --threads 1 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

3.2.1 測試結果

3.2.2 結論

從測試結果來看，分割槽數越多，單執行緒生產者的吞吐量越小。

3.3 副本數

（1）建立一個擁有兩個副本、6個分割槽的主題；
（2）建立一個擁有3個副本、6個分割槽的主題；
（3）向擁有兩個副本、6個分割槽的主題中傳送相同數量的訊息記錄，檢視效能變化；
（4）向擁有3個副本、6個分割槽的主題中傳送相同數量的訊息記錄，檢視效能變化；

執行命令如下：

# 建立一個擁有兩個副本、6個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf_r2 --partitions 6
 --replication-factor 2

# 建立一個擁有3個副本、6個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf_r3 --partitions 6
 --replication-factor 3

# 用3個執行緒傳送資料到擁有兩個副本的主題中
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_r2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

# 用3個執行緒傳送資料到擁有3個副本的主題中
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_r3 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

3.3.1 測試結果

3.3.2 結論

從測試結果來看，副本數越多，吞吐量越小。

3.4 Broker數量

通過增加Broker節點數量來檢視效能變化，指令碼如下：

# Kafka節點數為4個時，非同步傳送訊息記錄
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_b3 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092, dn4:9092 --batch-size 3000 --request-timeout-ms 100000

3.4.1 測試結果

3.4.2 結論

從測試結果來看，增加Kafka Broker數量，吞吐量會增加。

3.5 同步與非同步模式

分別使用同步和非同步模式傳送相同數量的訊息記錄，檢視效能變化。執行指令碼如下：

# 建立一個有用3個副本、6個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_producer_perf_s2 --partitions 6
 --replication-factor 3

# 使用同步模式傳送訊息資料
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --sync

# 使用非同步模式傳送訊息記錄
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092

3.5.1 測試結果

3.5.2 結論

從測試結果來看，使用非同步模式傳送訊息資料，比使用同步模式傳送訊息資料，吞吐量是同步模式的3倍左右。

3.6 批處理大小

使用非同步模式傳送相同數量的訊息資料，改變批處理量的大小，檢視效能變化，執行指令碼如下：

# 以批處理模式傳送，大小為1000條
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 1000  --request-timeout-ms 100000

# 以批處理模式傳送，大小為3000條
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 3000  --request-timeout-ms 100000

# 以批處理模式傳送，大小為5000條
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 5000  --request-timeout-ms 100000

# 以批處理模式傳送，大小為7000條
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 7000  --request-timeout-ms 100000

3.6.1 測試結果

3.6.2 結論

從測試的結果來看，傳送的訊息隨著批處理大小增加而增加。當批處理大小增加到3000~5000時，吞吐量達到最佳值。而後再增加批處理大小，吞吐量的效能會下降。

3.7 訊息長度的大小

改變訊息的長度大小，檢視效能變化，執行指令碼如下：

# 傳送訊息，長度為100位元組
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 3000  --request-timeout-ms 100000
 --message-size 100

# 傳送訊息，長度為200位元組
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 3000  --request-timeout-ms 100000
 --message-size 200

# 傳送訊息，長度為500位元組
[hadoop@dn1 ~]$ kafka-producer-perf-test-0.8.sh --messages 5000000
  --topics test_producer_perf_s2 --threads 3 --broker-list  dn1:9092,
 dn2:9092, dn3:9092 --batch-size 3000  --request-timeout-ms 100000
 --message-size 500

3.7.1 測試結果

3.7.2 結論

從測試結果來看，隨著訊息長度的增加，每秒所能傳送的訊息數量逐漸減少（nMsg/sec）。但是，每秒傳送的訊息的總大小（MB/sec），會隨著訊息長度的增加而增加。

4.消費者測試

消費者測試，可以從執行緒數、分割槽數、副本數等維度來進行測試。

4.1 執行緒數

建立一個擁有6個分割槽、1個備份的Topic，用不同的執行緒數讀取相同的資料量，檢視效能變化。測試指令碼如下：

# 建立主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_consumer_perf --partitions 6 --replication-factor 1

# 設定1個執行緒數
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper
 dn1:2181,dn2:2181,dn3:2181 --messages 5000000 --topic test_consumer_perf
 --group g1 --threads 1

# 設定3個執行緒數
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper
 dn1:2181,dn2:2181,dn3:2181 --messages 5000000 --topic test_consumer_perf
 --group g2 --threads 3

# 設定6個執行緒數
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper
 dn1:2181,dn2:2181,dn3:2181 --messages 5000000 --topic test_consumer_perf
 --group g3 --threads 6

4.1.1 測試結果

4.1.2 結論

隨著執行緒數的增加，每秒讀取的訊息記錄會逐漸增加。線上程數與消費主題的分割槽相等時，吞吐量達到最佳值。隨後，再增加執行緒數，新增的執行緒數將會處於空閒狀態，對提升消費者程式的吞吐量沒有幫助。

4.2 分割槽數

新建一個Topic，改變它的分割槽數，讀取相同數量的訊息記錄，檢視效能變化，執行指令碼如下：

# 建立一個擁有12個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_consumer_perf_p12 --partitions 12
 --replication-factor 1
# 建立一個擁有24個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 --topic test_consumer_perf_p24 --partitions 24
 --replication-factor 1

# 用一個執行緒讀取資料到擁有12個分割槽的主題中
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper
 dn1:2181,dn2:2181,dn3:2181 --messages 5000000 –topic
 test_consumer_perf_p12_--group g2 --threads 1

# 用一個執行緒讀取資料到擁有12個分割槽的主題中
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper
 dn1:2181,dn2:2181,dn3:2181 --messages 5000000 –topic
 test_consumer_perf_p24_--group g3 --threads 1

4.2.1 測試結果

4.2.2 結論

當分割槽數增加時，如果執行緒數保持不變，則消費者程式的吞吐量效能會下降。

4.3 副本數

新建Topic，改變Topic的副本數，讀取相同數量的訊息記錄，檢視效能變化，執行指令碼如下：

# 建立一個有用兩個副本、6個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 –topic test_consumer_perf_r2 --partitions 6
 --replication-factor 2

# 建立一個有3個副本、6個分割槽的主題
[hadoop@dn1 ~]$ kafka-topics.sh --create --zookeeper dn1:2181, dn2:2181,
 dn3:2181 –topic test_consumer_perf_r3 --partitions 6
 --replication-factor 3

# 用3個執行緒讀取資料到擁有兩個副本的主題中
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh –zookeeper dn1:2181
,dn2:2181,dn3:2181 --messages 5000000 –topic
 test_consumer_perf_r2_--group g2 --threads 3

# 用3個執行緒讀取資料到擁有3個副本的主題中
[hadoop@dn1 ~]$ kafka-consumer-perf-test.sh --zookeeper dn1:2181
,dn2:2181,dn3:2181 --messages 5000000 –topic
 test_consumer_perf_r3_--group g3 --threads 3

4.3.1 測試結果

4.3.2 結論

副本數對消費者程式的吞吐量影響較小，消費者程式是從Topic的每個分割槽的Leader上讀取資料的，而與副本數無關。

5.總結

Kafka效能測試步驟並不複雜，大家可以根據實際的測試環境、資料量，通過對生產者和消費者不同維度的測試，來獲取一組最佳的調優引數值。

6.結束語

這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

另外，博主出書了《Kafka並不難學》，喜歡的朋友或同學，可以在公告欄那裡點選購買連結購買博主的書進行學習，在此感謝大家的支援。

Kafka效能測試
2024-05-06
Kafka
Kafka效能測試分析
2018-10-24
Kafka
Kafka 入門（四）-- Python Kafka Client 效能測試
2021-01-16
KafkaPythonclient
效能測試-例項講解VU、RPS、RT公式換算
2019-07-19
公式
Jmeter介面測試例項-牛刀小試
2019-07-14
JMeter
KafKa Java程式設計例項
2018-05-28
KafkaJava程式設計
FreeSWITCH測試撥號規則例項
2019-05-20
測試驅動開發(TDD)例項演示
2020-05-14
大型專案裡Flutter測試應用例項整合測試深度使用
2023-01-29
Flutter
Apache Pulsar 與 Kafka 效能比較：延遲性（測試方法）
2021-11-24
ApacheKafka
安裝測試kafka
2020-03-28
Kafka
一文說清FISCO BCOS效能壓測（附例項教程）
2022-03-21
MySQL 效能壓測工具，從入門到自定義測試項
2022-12-21
MySql
測試面試-測試用例
2020-12-05
面試
PHP+MySQL實現線上測試答題例項
2020-01-03
PHPMySql
MySQL 效能壓測工具-sysbench，從入門到自定義測試項
2022-12-06
MySql
效能測試
2024-09-19
Jmeter介面測試+效能測試
2024-04-16
JMeter
測試——水杯的測試用例
2018-08-05
測試用例和測試方法
2020-11-23
測試用例
2024-07-07
分享一個SQLite 效能優化例項
2022-01-13
SQLite優化
利用jstack定位典型效能問題例項
2021-02-20
JS
【PG效能測試】pgbench效能測試工具簡單使用
2019-01-22
Jmeter效能測試：高併發分散式效能測試
2024-03-07
JMeter分散式
測試開發之效能篇-效能測試設計
2021-11-03
效能測試——效能測試-常見效能指標-總體概況
2024-04-18
指標
微服務測試之效能測試
2019-04-22
微服務
效能測試之測試指標
2021-10-18
指標
【效能測試】效能測試各知識第1篇：效能測試大綱【附程式碼文件】
2024-03-10
效能測試流程
2019-01-07
Redis 效能測試
2020-08-13
Redis
效能測試-概述
2020-08-20
JMeter效能測試
2021-11-26
JMeter
效能測試面試題
2018-06-11
面試題
測試用例—教室
2020-11-20
【5】測試用例
2024-06-16
配置高效能動態網站（例項）
2019-02-03
網站