一次Kafka記憶體洩露排查經過

阿維發表於2022-02-16

Kafka記憶體洩露

一、現象

服務部署後記憶體總體呈上升趨勢

二、排查過程

通過go tool pprof收集了三天記憶體資料

2月11號資料：

2月14號資料：

2月15號資料：

可以看到newPartitionProducer持續增長，可定位到是kafka的問題。而newPartitionProducer是分割槽生產者，因此檢視分割槽相關的資料。

最近增加的topic：ai_face_process_topic，這個是AI換臉的，每生成一個視訊都要通過Kafka中轉訊息到視訊處理伺服器。

查閱資料庫看視訊生成記錄。2022.1.25上線到今天2022.2.15一共20天，只增長了701個視訊，平均每天35個視訊。

但這個topic有64個分割槽。這是因為視訊生成過程比較耗時，當時考慮到需要提高併發量，所以需要分割槽數比較多。

檢視sarama客戶端的API程式碼，給每個分割槽發訊息時會判斷這個分割槽的handler是否存在，不存在則建立。

sarama建立partition handler的關鍵程式碼：

　　　　　handler := tp.handlers[msg.Partition]
        if handler == nil {
            handler = tp.parent.newPartitionProducer(msg.Topic, msg.Partition)
            tp.handlers[msg.Partition] = handler
        }

且建立後需要手動close，否則記憶體一直佔用，這是官方說明：

而我們使用sarama客戶端的producer是全域性的，一直不會close，所以會一直佔用記憶體。

再看看我們使用sarama的partitioner是NewRandomPartitioner，即每條訊息隨機匹配到partition。

這樣，按照每天三十多的視訊生成量，出現前幾天新增分配二三十個handler，逐漸減少，直到分配完64個handler。

每個handler會分配8MB記憶體，也就出現了上面的記憶體資料：152MB，264MB，172MB。

三、結論與優化

記憶體增長几天穩定後則不會繼續增長。

其他分割槽數比較多的topic沒有觀察到記憶體持續增長情況是因為資料量比較大，服務啟動沒多久就分配完了每個分割槽的handler。

優化：

單個AI換臉視訊處理服務耗時較長，決定了我們需要比較大的併發量，所以後面分割槽數還可能增加。而64個分割槽已經使每個服務佔用64*8=504MB記憶體，嚴重影響擴充套件性。

因此後面ai_face_process_topic考慮遷移到redis做訊息中轉。

四、參考連結：

githup sarama memory leak問題

kafka memory leak問題

相關文章

記一次"記憶體洩露"排查過程
2019-10-15
記憶體洩露
nodejs爬蟲記憶體洩露排查
2019-04-02
NodeJS爬蟲記憶體洩露
記錄一次記憶體洩漏排查過程
2023-11-06
記憶體
記一次尷尬的Java應用記憶體洩露排查
2018-09-22
Java記憶體洩露
netty 堆外記憶體洩露排查盛宴
2018-09-03
Netty記憶體洩露
記一次堆外記憶體洩漏排查過程
2024-06-10
記憶體
Python實現記憶體洩露排查的示例
2023-03-23
Python記憶體洩露
記一次使用windbg排查記憶體洩漏的過程
2020-05-31
記憶體
一次 Java 記憶體洩漏的排查
2020-03-15
Java記憶體
一次排查Java專案記憶體洩漏的過程
2018-08-17
Java記憶體
一次 Java 記憶體洩漏排查過程，漲姿勢
2021-09-09
Java記憶體
一次glide記憶體洩漏排查分析
2024-05-10
IDE記憶體
SHBrowseForFolder 記憶體洩露
2024-11-11
記憶體洩露
記一次 .NET 某工控軟體記憶體洩露分析
2022-12-06
記憶體洩露
排查Java記憶體洩露實戰(內附各種排查工具介紹)
2021-11-24
Java記憶體洩露
記憶體溢位和記憶體洩露
2022-11-30
記憶體溢位記憶體洩露
Lowmemorykiller記憶體洩露分析
2018-11-15
記憶體洩露
記一次 Ruby 記憶體洩漏的排查和修復
2019-04-03
記憶體
一次尋常的堆外記憶體洩漏排查
2020-11-01
記憶體
使用 mtrace 分析 “記憶體洩露”
2019-09-21
記憶體洩露
實戰Go記憶體洩露
2019-05-18
Go記憶體洩露
Android 記憶體洩露詳解
2018-12-31
Android記憶體洩露
分散式 | 令人頭疼的堆外記憶體洩露怎麼排查？
2022-12-16
分散式記憶體洩露
經驗之談：記憶體洩露的原因以及分析
2022-03-17
記憶體洩露
redisson記憶體洩漏問題排查
2024-09-24
Redis記憶體
Linux記憶體洩露案例分析和記憶體管理分享
2024-10-24
Linux記憶體洩露
ArkTS 的記憶體快照與記憶體洩露除錯
2024-10-29
記憶體洩露除錯
JVM 常見線上問題 → CPU 100%、記憶體洩露問題排查
2020-10-09
JVM記憶體洩露
Pprof定位Go程式記憶體洩露
2022-02-16
Go記憶體洩露
一次訊息消費服務的記憶體洩漏排查小記
2021-02-19
記憶體
記一次 redis 事件註冊不當導致的記憶體洩露
2024-07-18
Redis事件記憶體洩露
win10驅動記憶體洩露如何解決_win10記憶體洩露處理方法
2020-08-06
Win10記憶體洩露
android Handler導致的記憶體洩露
2019-03-03
Android記憶體洩露
乾貨分享：淺談記憶體洩露
2018-08-08
記憶體洩露
解決git記憶體洩露問題
2018-04-10
Git記憶體洩露
Spring Boot heapdump洩露記憶體分析方法
2024-06-06
Spring Boot記憶體
線上記憶體洩露定位--memleak工具
2020-12-24
記憶體洩露
java中如何檢視記憶體洩露
2020-11-30
Java記憶體洩露