運維監控丨16條常用的Kafka看板監控配置與告警規則

乐维_lwops發表於2024-10-29

原文網址 : https://www.cnblogs.com/lwops/p/18512533

本期我們針對企業運維監控的場景，介紹一些監控配置和告警規則。可以根據Kafka叢集和業務的具體要求，靈活調整和擴充套件這些監控配置及告警規則。在實際應用場景中，需要綜合運用多種監控工具（例如Prometheus、Grafana、Zabbix等）和告警機制，以保障Kafka叢集的穩定性和可靠性。此外，定期稽核並更新監控配置與告警規則，對於維護Kafka叢集的良好執行狀態至關重要。

Kafka監控配置

1. 日誌保留時間（log.retention.hours）

• 監控描述：控制訊息在日誌中保留的時間。

• 配置建議：根據業務需求設定合理的保留時間，避免訊息堆積或過早刪除。

2. 分割槽數（num.partitions）

• 監控描述：控制主題的分割槽數。

• 配置建議：根據資料量和負載情況調整分割槽數，以最佳化讀寫效能。

3. ISR最小副本數（min.insync.replicas）

• 監控描述：控制ISR（In-Sync Replicas）的最小副本數。

• 配置建議：確保ISR數量滿足可靠性需求，提高資料冗餘度。

4. 日誌重新整理頻率（log.flush.interval.messages）

• 監控描述：控制訊息在日誌中的重新整理頻率。

• 配置建議：根據寫入磁碟的頻率需求進行設定，以平衡效能和安全性。

5. JVM堆記憶體大小

• 監控描述：設定JVM堆記憶體大小，確保Kafka伺服器穩定執行。

• 配置建議：根據伺服器硬體配置和業務負載進行調整。

6. GC策略

• 監控描述：設定垃圾回收策略，最佳化Kafka伺服器效能。

• 配置建議：選擇合適的GC策略，減少GC停頓時間。

Kafka告警規則

1. 訊息堆積告警

• 規則描述：當某個Topic的訊息堆積量超過設定閾值時觸發告警。

• 閾值設定：根據業務需求和資料處理速度進行設定。

2. 消費者延遲告警

• 規則描述：當消費者處理訊息的延遲超過設定閾值時觸發告警。

• 閾值設定：根據消費者處理能力和業務需求進行設定。

3. Broker異常告警

• 規則描述：當Broker狀態異常（如當機、效能下降）時觸發告警。

• 閾值設定：根據Broker的健康狀態監控指標進行設定。

4. Producer傳送失敗告警

• 規則描述：當Producer傳送訊息失敗數量達到設定閾值時觸發告警。

• 閾值設定：根據Producer的傳送能力和業務需求進行設定。

5. Producer傳送耗時告警

• 規則描述：當Producer傳送訊息的平均耗時超過設定閾值時觸發告警。

• 閾值設定：根據網路狀況和Producer的效能進行設定。

6. 分割槽數過多告警

• 規則描述：當某個Topic的分割槽數超過設定閾值時觸發告警。

• 閾值設定：根據叢集規模和效能要求進行設定。

7. ISR副本數不足告警

• 規則描述：當ISR副本數不足時觸發告警。

• 閾值設定：根據資料冗餘度和可靠性需求進行設定。

8. 磁碟空間不足告警

• 規則描述：當Kafka所在伺服器的磁碟空間不足時觸發告警。

• 閾值設定：根據磁碟容量和業務增長趨勢進行設定。

9. 網路延遲告警

• 規則描述：當Kafka叢集的網路延遲超過設定閾值時觸發告警。

• 閾值設定：根據網路狀況和業務需求進行設定。

10. Broker不可用告警

• 規則描述：當Broker無法正常工作時觸發告警。

• 閾值設定：根據Broker的健康狀態監控指標進行設定。

KAFKA監控一條龍：史上最強Kafka看板+監控配置與告警規則
2024-11-03
Kafka
運維文件：系統監控及告警配置
2024-07-26
運維
運維監控工具
2024-11-05
運維
【合集】Linux運維常用的服務監控工具
2022-02-14
Linux運維
Oracle 自動化運維-Python監控Oracle告警日誌
2020-03-17
Oracle運維Python
prometheus監控+alertmanager告警
2024-03-07
Prometheus
無監控，不運維：解讀企業全棧式監控運維
2019-09-26
運維全棧
配置 Prometheus 伺服器監控和 Grafana 看板
2019-01-10
Prometheus伺服器Grafana
如何做好運維監控？
2024-03-28
運維
prometheus之docker監控與告警系列（一）
2018-09-14
PrometheusDocker
prometheus之docker監控與告警系列（二）
2018-09-14
PrometheusDocker
prometheus之docker監控與告警系列（三）
2018-09-14
PrometheusDocker
Kafka - 監控軟體
2023-03-16
Kafka
金融系統IT運維監控的探索與實踐
2023-04-12
運維
運維監控指標彙總
2023-04-18
運維指標
ORACLE OGG運維及日常監控
2020-12-12
Oracle運維
NETCONF工具與智慧化網路監控運維
2020-05-20
運維
Munin監控的安裝與配置
2022-06-16
【推薦】常用的7款最佳開源運維監控軟體！
2022-05-19
運維
Zabbix如何監控Oracle的告警日誌
2024-09-21
Oracle
LED螢幕監控運維管理方案
2020-08-11
運維
分層運維自動化監控
2024-08-13
運維
運維文件：網站監控系統
2024-07-27
運維網站
Kafka監控系統Kafka Eagle剖析
2018-07-27
Kafka
監控系統告警指令碼集合
2021-05-08
指令碼
Prometheus監控規則推薦網站🔰
2024-08-26
Prometheus網站
IT監控（進階篇）：運維監控系統手把手部署教學
2024-11-05
運維
無監控，不運維！深入淺出介紹ChengYing監控設計和使用
2023-01-10
運維
智和網管平臺打造“海量接入智慧監控”的統一運維監控中心
2021-12-16
運維
運維監控如何做成 BATJ 的水準
2020-04-11
運維BAT
簡單聊聊運維監控的其他用途
2022-07-02
運維
NETCONF工具與智慧化網路監控運維（轉載）
2020-07-06
運維
運維文件 - 伺服器效能監控與最佳化
2024-07-27
運維伺服器
徒手教你製作運維監控大屏
2019-07-17
運維
運維文件：伺服器監控系統
2024-07-26
運維伺服器
資料庫監控工具--PIGOSSBSM運維監控管理系統
2020-03-03
資料庫Go運維
16.prometheus監控總結
2024-04-25
Prometheus
使用 Prometheus 監控 eKuiper 規則執行狀態
2022-09-20
PrometheusUI

運維監控丨16條常用的Kafka看板監控配置與告警規則

Kafka監控配置

Kafka告警規則

相關文章