公司內部一次關於kafka訊息佇列消費積壓故障覆盤分享

星巴克男孩發表於2022-01-23

原文網址 : https://www.cnblogs.com/StarbucksBoy/p/15836125.html

Kafka佇列

背景現象

1.20晚上8點業務線開始切換LBS相關流量，在之後的1個小時時間內，積壓量呈上升趨勢，一路到達50W左右，第二天的圖沒貼出具體是50W數字，以下是第一天晚上的貼圖部分。

現象一：

現象二：

當時現場圖後來就找不回來了，憑印象說明了一下數字。

簡要說明一下上述兩個圖

圖一：其實很明顯，明顯看出，消費者消費速度明顯跟不上生產者的傳送速度，導致出現積壓情況。

圖二：圖二就有點意思了，因為上游通過Kafka訊息佇列傳送訊息給我，topic對應的分割槽數是20個。由於我的應用消費組內消費者例項是17個，所以從巨集觀上分析，勢必會有3個消費者會承擔多消費一個分割槽的情況。這個倒也容易理解。但為什麼會積壓這麼多。個人分析了一下，主要還是跟消費者本身消費的消費業務邏輯有關。因為我的消費業務邏輯是要呼叫下游一個LBS地圖服務的，通過裝置上報的WIFE內容經過公司LBS平臺介面換取裝置當前地理位置座標資訊，但這個地理位置服務，R通過命令：thread-n3-i 500 : 列出500毫秒內最忙的3個執行緒棧，其中就有兩個屬於呼叫地理位置服務的執行緒。

通過命令：thread-n3-i 500(阿里開源診斷工具Arthas：thread命令) : 列出500毫秒內最忙的3個執行緒棧，其中就有兩個屬於呼叫地理位置服務的執行緒。

原因分析

分析了具體原因具體是兩個層面

HMS-Client(公司自己封裝的呼叫訊息佇列的SDK)層面

根據圖一，其實想說明一點的是，在本應用呼叫下游服務延遲高的場景下，從圖一的現象看出，消費者的利用率其實不高，topic有20個分片，消費組17個容器例項，14個例項基本對應一個分割槽，有三個例項對應2個分割槽，導致資源利用率其實很低，而我們其實是希望在下游服務相應慢的情況下,最好有更多執行緒參與去消費任務，增加吞吐率，提高處理效率（IO密集型應用，儘量提高處理執行緒數）。而我們的處理執行緒數是5個，即最高5個執行緒會去處理任務，其他都會等待進入

這兩個引數，當下應用設定了5個，但我的機器配置是8核16G，引數設定是不合理的。這個引數主要是從其他專案中拷貝過來，沒過多關注他，在高併發應用場景下，想不多卻成為瓶頸，特別是消費執行緒內如果涉及到RT很高，QPS上不去的下游服務，就有講究了。

呼叫下游服務響應延遲高

這個我上述圖二已經有詳細描述了

解決方案

調整Client 消費執行緒數，從原來的5調整到20個執行緒
增加KAFKA的分片數，臨時方案，目前已經讓中介軟體從原來的分片數20調整到60，積壓下降的明顯。因為消費組內的消費者例項一個承擔了基本3-4個分割槽訊息數。

公司內部一次關於OOM故障覆盤分享
2022-03-12
OOM
kafka 訊息佇列
2018-07-29
Kafka佇列
Kafka訊息佇列
2022-01-09
Kafka佇列
關於MQ的幾件小事（六）訊息積壓在訊息佇列裡怎麼辦
2019-05-22
MQ佇列
分散式訊息佇列：如何保證訊息不被重複消費?（訊息佇列消費的冪等性）
2019-03-26
分散式佇列
訊息佇列——數十萬級訊息的消費方案
2024-10-14
佇列
技術分享| 訊息佇列Kafka群集部署
2022-10-18
佇列Kafka
PHP Kafka 訊息佇列使用
2020-05-12
PHPKafka佇列
實時數倉之Flink消費kafka訊息佇列資料入hbase
2024-03-26
Kafka佇列
RocketMQ -- 訊息消費佇列與索引檔案
2022-03-27
MQ佇列索引
消費端如何保證訊息佇列MQ的有序消費
2019-07-30
佇列MQ
kafka消費者消費訊息的流程
2020-11-28
Kafka
建立訊息佇列（Kafka）源表
2018-11-14
佇列Kafka
線上訊息佇列發生積壓，如何快速解決？
2024-01-25
佇列
訊息佇列-如何保證訊息的不被重複消費（如何保證訊息消費的冪等性）
2021-11-19
佇列
知識分享--訊息佇列
2020-03-26
佇列
訊息佇列Kafka學習總結
2018-07-11
佇列Kafka
“簡單”的訊息佇列與kafka
2019-06-11
佇列Kafka
KMQ：基於Apache Kafka的可靠性訊息佇列
2021-06-14
MQApacheKafka佇列
公司內部技術分享會：覆盤我的前端成長
2019-07-12
前端
Kafka 訊息丟失與消費精確一次性
2020-07-03
Kafka
Kafka訊息積壓，你監控Rebalance了嗎？
2022-11-16
Kafka
KOA + egg.js 整合 kafka 訊息佇列
2018-11-08
JSKafka佇列
訊息佇列的使用場景之kafka
2021-12-11
佇列Kafka
阿里雲訊息佇列 Kafka-訊息檢索實踐
2022-07-26
阿里佇列Kafka
探索Kafka消費者的內部結構
2022-07-25
Kafka
用redis實現訊息佇列（實時消費+ack機制）
2018-05-03
Redis佇列
訊息佇列Kafka「檢索元件」重磅上線！
2022-05-07
佇列Kafka元件
位元組跳動面試官這樣問訊息佇列：高可用、不重複消費、可靠傳輸、順序消費、訊息堆積，我整理了下
2021-02-24
面試佇列
訊息佇列系列一：訊息佇列應用
2021-05-24
佇列
訊息佇列之Kafka——從架構技術重新理解Kafka
2020-05-17
佇列Kafka架構
訊息佇列
2024-05-28
佇列
訊息佇列之事務訊息，RocketMQ 和 Kafka 是如何做的？
2020-10-20
佇列MQKafka
Kafka叢集訊息積壓問題及處理策略
2021-03-03
Kafka
一文講透訊息佇列RocketMQ實現消費冪等
2023-12-18
佇列MQ
【原創】訊息佇列的消費語義和投遞語義
2019-06-19
佇列
剖析 Redis List 訊息佇列的三種消費執行緒模型
2024-09-10
Redis佇列執行緒模型
[訊息佇列]kafka高效能/高吞吐量
2024-10-03
佇列Kafka