Kafka服務不可用(當機)問題踩坑記

ChouYarn發表於2019-08-02

原文網址 : https://www.cnblogs.com/ChouYarn/p/11290396.html

背景

某線上日誌收集服務報警，開啟域名報502錯誤碼。收集服務由2臺netty HA伺服器組成,netty伺服器將客戶端投遞來的protobuf日誌解析併傳送到kafka，開啟其中一個應用的日誌，發現如下報錯：

org.apache.kafka.common.errors.TimeoutException: Expiring 1 record(s)

在排除了netty服務的錯誤之後，去檢視kafka的日誌。發現報錯，排查過程如下；

配置資訊

系統	kafka版本	broker數量
CentOS7.4	2.1.0	3

線上有三臺Kafka Broker，id分別為0、1、2，伺服器只部署了Kafka服務。

問題

執行緒是否存活

首先jps檢視Kafka執行緒是否存活，三臺機器都沒問題，kafka依然在執行。

GC問題

檢視kafkaServer-gc.log.1.current的日誌，gc日誌沒發現異常。

Broker 0/server.log

[2019-08-02 15:17:03,699] WARN Attempting to send response via channel for which there is no open connection, connection id 172.21.3.14:9092-172.21.3.11:54311-107706 (kafka.network.Processor)
[2019-08-02 15:19:12,490] INFO [GroupMetadataManager brokerId=0] Removed 0 expired offsets in 0 milliseconds. (kafka.coordinator.group.GroupMetadataManager)
[2019-08-02 15:26:54,405] INFO [ReplicaFetcher replicaId=0, leaderId=1, fetcherId=0] Error sending fetch request (sessionId=1112819217, epoch=1897450) to node 1: java.io.IOException: Connection to 1 was disconnected before the response was read. (org.apache.kafka.clients.FetchSessionHandler)
[2019-08-02 15:26:54,411] WARN [ReplicaFetcher replicaId=0, leaderId=1, fetcherId=0] Error in response for fetch request (type=FetchRequest, replicaId=0, maxWait=500, minBytes=1, maxBytes=10485760, fetchData={galaxy_client-7=(offset=15680912, logStartOffset=14755985, maxBytes=1048576, currentLeaderEpoch=Optional[9])}, isolationLevel=READ_UNCOMMITTED, toForget=, metadata=(sessionId=1112819217, epoch=1897450)) (kafka.server.ReplicaFetcherThread)
java.io.IOException: Connection to 1 was disconnected before the response was read
        at org.apache.kafka.clients.NetworkClientUtils.sendAndReceive(NetworkClientUtils.java:97)
        at kafka.server.ReplicaFetcherBlockingSend.sendRequest(ReplicaFetcherBlockingSend.scala:97)
        at kafka.server.ReplicaFetcherThread.fetchFromLeader(ReplicaFetcherThread.scala:190)
        at kafka.server.AbstractFetcherThread.kafka$server$AbstractFetcherThread$$processFetchRequest(AbstractFetcherThread.scala:241)
        at kafka.server.AbstractFetcherThread$$anonfun$maybeFetch$1.apply(AbstractFetcherThread.scala:130)
        at kafka.server.AbstractFetcherThread$$anonfun$maybeFetch$1.apply(AbstractFetcherThread.scala:129)
        at scala.Option.foreach(Option.scala:257)
        at kafka.server.AbstractFetcherThread.maybeFetch(AbstractFetcherThread.scala:129)
        at kafka.server.AbstractFetcherThread.doWork(AbstractFetcherThread.scala:111)
        at kafka.utils.ShutdownableThread.run(ShutdownableThread.scala:82)
[2019-08-02 15:27:26,433] INFO [ReplicaFetcher replicaId=0, leaderId=1, fetcherId=0] Error sending fetch request (sessionId=1112819217, epoch=INITIAL) to node 1: java.io.IOException: Connection to 1 was disconnected before the response was read. (org.apache.kafka.clients.FetchSessionHandler)

Broker 1/server.log

[2019-08-02 15:26:53,751] WARN [GroupCoordinator 1]: Failed to write empty metadata for group StoreToHiveV2: The group is rebalancing, so a rejoin is needed. (kafka.coordinator.group.GroupCoordinator)
[2019-08-02 15:26:55,515] WARN [GroupCoordinator 1]: Failed to write empty metadata for group LPmkt: The group is rebalancing, so a rejoin is needed. (kafka.coordinator.group.GroupCoordinator)
[2019-08-02 15:26:56,124] WARN [GroupCoordinator 1]: Failed to write empty metadata for group Store2CarbonClientServer: The group is rebalancing, so a rejoin is needed. (kafka.coordinator.group.GroupCoordinator)
[2019-08-02 15:26:56,575] WARN [GroupCoordinator 1]: Failed to write empty metadata for group StoreToHive: The group is rebalancing, so a rejoin is needed. (kafka.coordinator.group.GroupCoordinator)

Broker 2/server.log

[2019-08-02 15:26:54,514] WARN [ReplicaFetcher replicaId=2, leaderId=1, fetcherId=0] Error in response for fetch request (type=FetchRequest, replicaId=2, maxWait=500, minBytes=1, maxBytes=10485760, fetchData={galaxy_client-7=(offset=15680912, logStartOffset=14755985, maxBytes=1048576, currentLeaderEpoch=Optional[9])}, isolationLevel=READ_UNCOMMITTED, toForget=, metadata=(sessionId=1550207796, epoch=1890003)) (kafka.server.ReplicaFetcherThread)
java.io.IOException: Connection to 1 was disconnected before the response was read
        at org.apache.kafka.clients.NetworkClientUtils.sendAndReceive(NetworkClientUtils.java:97)
        at kafka.server.ReplicaFetcherBlockingSend.sendRequest(ReplicaFetcherBlockingSend.scala:97)
        at kafka.server.ReplicaFetcherThread.fetchFromLeader(ReplicaFetcherThread.scala:190)
        at kafka.server.AbstractFetcherThread.kafka$server$AbstractFetcherThread$$processFetchRequest(AbstractFetcherThread.scala:241)
        at kafka.server.AbstractFetcherThread$$anonfun$maybeFetch$1.apply(AbstractFetcherThread.scala:130)
        at kafka.server.AbstractFetcherThread$$anonfun$maybeFetch$1.apply(AbstractFetcherThread.scala:129)
        at scala.Option.foreach(Option.scala:257)
        at kafka.server.AbstractFetcherThread.maybeFetch(AbstractFetcherThread.scala:129)
        at kafka.server.AbstractFetcherThread.doWork(AbstractFetcherThread.scala:111)
        at kafka.utils.ShutdownableThread.run(ShutdownableThread.scala:82)
[2019-08-02 15:27:26,569] INFO [ReplicaFetcher replicaId=2, leaderId=1, fetcherId=0] Error sending fetch request (sessionId=1550207796, epoch=INITIAL) to node 1: java.io.IOException: Connection to 1 was disconnected before the response was read. (org.apache.kafka.clients.FetchSessionHandler)

問題排查

由於是線上應用，基本沒時間排查問題，所以立即重啟了三臺Kafka，重啟後得到緩解。

在服務正常之後，在網上搜了很多答案，有的人說是網路問題，close wait過多導致broker網路不通，從而Kafka產生腦裂問題。在各個伺服器上執行命令：

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

結果

ESTABLISHED 172
TIME_WAIT 32

也沒發現異常，等下次再出現問題時，要執行這個命令看看伺服器的狀態。

社群bug？

https://issues.apache.org/jira/browse/KAFKA-6582

下方有人評論：We are running 2.1.1 in production (and four other environments) since March without this issue showing again.

所以找時間升級Kafka版本吧~

工作踩坑問題記錄
2024-12-07
Eureka服務註冊不可用問題
2018-08-19
Java Agent 踩坑之 appendToSystemClassLoaderSearch 問題
2022-06-29
JavaAPP
Kafka SASL ACL配置踩坑總結
2021-03-05
Kafka
No 'Access-Control-Allow-Origin' header: 跨域問題踩坑記錄
2021-11-30
Header跨域
removeChild踩坑記
2019-02-16
REM
vue 踩坑記
2018-12-03
Vue
mpVue 踩坑記
2018-08-08
Vue
vuepress踩坑記
2018-04-17
Vue
Asp.net core依賴注入服務生存期踩坑記錄
2024-06-17
ASP.NET依賴注入
Vue 路由 history 模式踩坑記錄：nginx 配置解決 404 問題
2019-03-05
Vue路由模式Nginx
kafka單機部署多服務
2018-12-05
Kafka
Material過渡+Glide顯示問題踩坑
2018-07-12
IDE
react服務端渲染框架Next.js踩坑（一）
2019-04-01
React服務端框架JS
react服務端渲染框架Next.js踩坑（三）
2019-04-02
React服務端框架JS
react服務端渲染框架Next.js踩坑（二）
2019-04-01
React服務端框架JS
WebSocket 服務掛掉問題記錄
2019-05-22
Web
Sentry 部署踩坑記
2019-04-02
RN 踩坑：雜記
2018-12-14
sealos踩坑記錄
2024-04-29
strtotime 踩坑記錄
2019-12-31
Dubbo 2.7.1 踩坑記
2019-05-16
DietPi踩坑記錄
2024-07-28
DelayedWorkQueue踩坑筆記
2021-01-02
筆記
laravel踩坑記錄
2021-01-08
Laravel
PHP 8 踩坑記
2021-01-15
PHP
踩坑日記(1)
2020-12-15
前端踩坑關於蘋果手機class.on(‘click‘)失效的問題
2020-09-29
前端蘋果
Vue踩坑記錄（二）——vue腳手架webpack配置一個小問題
2018-11-08
VueWeb
memcopy 導致的程式碼崩潰問題，memcpy的三大踩坑記
2020-10-31
memcpy
（踩坑記錄）關於docker run命令啟動elasticsearch自動退出問題
2020-12-22
DockerElasticsearch
小米 6 刷機 Ubuntu Touch 的踩坑記錄
2024-07-13
Ubuntu
node link 踩坑記錄
2019-02-16
Realm ios踩坑筆記
2018-11-05
iOS筆記
ABP框架踩坑記錄
2019-01-25
框架
Electron工程踩坑記錄
2019-01-23
MUI的踩坑筆記
2018-08-07
UI筆記
gorm踩坑記錄(一)
2020-11-06
GoORM