一次 kafka 消費者的效能調優過程

农民小工程师發表於2024-04-19

原文網址 : https://www.cnblogs.com/77cxw/p/18145098

Kafka

背景

最近上線了一個kafka的消費者，資料規模大概是低峰期單機每分鐘消費88W條，QPS 14666。上線後看了下資料，程序CPU到了132%。

8核的機器，單程序CPU132倒也還好，但還是想看看，到底是咋回事。

過程

第一次排查&最佳化（協程池化->約為0最佳化）

於是就開始採集pprof的資料。golang pprof的採集是十分便捷的，在main.go引入net/http/pprof包，包裡pprof.go檔案的init()方法就會自動註冊相關的http路由。

CPU的火焰圖看著就有點不合理，光是runtime的部分，居然耗費了1/3的CPU。首先懷疑是goroutine建立過多的問題，我們消費者框架如下圖，服務從kafka消費到一條msg後，會分發給每一個plugin，為了plugin之間互不影響，所以都是非同步呼叫plugin的。

所以這裡每條訊息會有放大的問題，這個服務有3個plugin，每條訊息就會建立3個goroutine，也就是每秒建立14666*3約45000 goroutine。解決辦法也簡單，就是池化，以達到goroutine複用的目的，也就是老生常談的協程池了。這裡用了我司的一位go社群大牛的協程池庫ants[1](可惜這位大牛已經江湖見了我哭死)，有協程池需求的可吃波安利。

👉點選領取Go後端開發資料合集

結果&問題

但上線後發現也就只有一點點效果，pprof再看了下goroutine的部分，取樣到的goroutine總數其實不多，這一步最佳化的前後的取樣也其實沒太大區別。

而且想了下線上其他feed之類的服務，每個請求還併發拉多個資料來源來拼資料，那種服務的goroutine建立可猛多了，但也不會像我這個服務，光是GMP就佔了1/3。這一步最佳化，最終的結果就是，強行把框架的TODO完成了。。

第二次排查&最佳化（定時器“洩漏” -> 初見成效）

pprof看不出問題的話，就得考慮更多的效能分析工具了，於是開始用go trace，trace的路由是和pprof一同註冊的，直接使用就行。trace的用法要稍複雜點，用法可移步文末的參考文章，這裡就不貼了。在剛開始檢視問題時，不建議直接陷入goroutine排程的細節，因此一般先看 “Scheduler latency profile(排程延遲概況)”，能看到整體的呼叫開銷情況，如下：

只能看到大部分的延遲是由select帶來的。。看不出個所以然，於是想把下面的幾個統計都先看看，結果看到Goroutine analysis時，發現了一個很怪異的資料。

Context居然執行過24W的goroutine。這裡有點要說明的，上文的圖三也是goroutine取樣資料, 路由是/debug/pprof/goroutine，個數是1000左右。而trace的Goroutine analysis，goroutine數 20W+了，數量級明顯不對。可以看下pprof.go對於前者的註釋，"goroutine": "Stack traces of all current goroutines", 顯然前者統計的是現有的所有goroutine；而後者法律時刻則是取樣期間所有執行過的goroutine。回到context那24W goroutine，追蹤程式碼看到是從這裡引入的，而time.AfterFunc()內部會使用goroutine

看到這裡，結合框架的程式碼就看出問題了。Context.WithDeadline()這個方法，會建立定時器，上面的註釋也給我們說了，當上下文完成時要立馬呼叫cancel來釋放資源。但框架裡用到這個函式的地方，只在err的時候立馬釋放了，正常情況的定時器，全都等到了執行時間執行，然後才釋放資源所以才有那麼多的goroutine執行。

ctx, cancelFunc := context.WithTimeout(context.Background(), 5*time.Second)err := s.Limiter.Wait(ctx)if err != nil {   log.Errorlnf("等待限流器錯誤，err:%v", err)   cancelFunc()   continue}
ctxReadMsg, cancelFunc2 := context.WithTimeout(context.Background(), s.opt.FetchTimeout)msg, err := s.reader.ReadMessage(ctxReadMsg)if err != nil {   if !errors.Is(err, context.DeadlineExceeded) {      s.ErrorLogger.Printf("read message err:%v", err)   }   cancelFunc2()}

大量的定時器排程，導致了GMP的排程需要很高的CPU，我是這麼理解的。解決問題的辦法更簡單了，呼叫完成後直接cancel()，如

ctx, cancelFunc := context.WithTimeout(context.Background(), 5*time.Second)err := s.Limiter.Wait(ctx)if err != nil {   log.Errorlnf("等待限流器錯誤，err:%v", err)   cancelFunc()   continue}cancelFunc()

結果&問題

上線後效果還是挺顯著的，CPU成功從132 下降到 100，最佳化了1/4。看新的trace，goroutine也沒了24W的大頭

但咋講呢。runtime的CPU 還是佔了很大一部分。。問題還是沒有徹底解決。排程的部分，還是有25%的CPU呼叫，加上sysmon的已經30%了。golang這麼優秀的語言，光是排程部分就這麼耗CPU也太不講道理了吧，肯定還有哪裡不對。

第三次排查&最佳化（GMP的自旋 -> 更進一層）

這次把pprof和trace裡所有的概況資料，以及具體的trace細節都看了，發現了有幾個疑惑點。

排程延遲裡，大頭都是有阻塞的

View Trace的細節，每50ms，總會核心數的利用率大概只有50%的情況，8核，只用了4核（更貼切的說法是8個P，只有4個在處理G）

繼續細化View trace，發現即便在工作看著很密集的時候，大多數時間其實也只有1-2個P在同時Work。

這幾個點概括起來就是，1. 出現了較多的channel阻塞 2. P的使用率不高。於是到這裡就得引入我們的GMP模型了。首先是P，go為了讓新的G能儘快執行，所以會有一批P在不停自旋執行findrunnable，但自旋會耗費CPU啊，所以自旋的P也不能太多，而這個數是由GOMAXPROCS決定的，預設是CPU的核心數，我這裡是8核的機器，所以P數量是8。然後是阻塞，M關聯P執行後若遇到channel阻塞，P會和M解綁，然後P繼續找runnable的G。但我的服務是IO密集型，同一時間內大部分的G都在阻塞，所以能找到的也不多，同時有任務處理的P也不多。這兩個原因加起來就是，同時可執行的G不多，當前的P已經完全足夠了，導致剩下的P都在白白自旋。在網上的部落格中，也看到了類似的例子。解決方法就更簡單了，無非就是調低程式啟動的時候，把GOMAXPROCS調低。

func main() {    runtime.GOMAXPROCS(4)    // ...}

結果

終於cpu從100 下降到 73，火焰圖中，runtime排程的CPU佔比也降低了8。這裡其實還有一個點，對比圖10，runtime.sysmon的在火焰圖上看不到了，這裡後面再細化下原因。

總結

golang 原生的pprof和trace支援，作為go開發者要熟練地用來做效能分析。
帶Deadline的Context，使用完記得及時回收資源。
golang 的 GMP模型，P的數量，不是越多越好。

參考文章

Go 大殺器之跟蹤剖析 trace[2]透過例項理解Go Execution Tracer[3][Golang三關-典藏版] Golang 排程器 GMP 原理與排程全分析[4]Go gomaxprocs 調高引起排程效能損耗[5]

參考資料

[1] ants: https://github.com/panjf2000/ants[2] Go 大殺器之跟蹤剖析 trace: https://golang2.eddycjy.com/posts/ch6/03-trace/[3] 透過例項理解Go Execution Tracer: https://tonybai.com/2021/06/28/understand-go-execution-tracer-by-example/[4] [Golang三關-典藏版] Golang 排程器 GMP 原理與排程全分析: https://learnku.com/articles/41728[5] Go gomaxprocs 調高引起排程效能損耗: https://cloud.tencent.com/developer/article/1848155

kafka消費者消費訊息的流程
2020-11-28
Kafka
Kafka 消費者解析
2022-05-28
Kafka
記一次SQL調優過程
2019-10-10
SQL
Kafka 消費組消費者分配策略
2021-01-01
Kafka
JVM 效能調優實戰之：一次系統效能瓶頸的尋找過程
2018-07-02
JVM
Kafka 線上效能調優
2024-04-18
Kafka
Kafka 消費者組 Rebalance
2020-12-29
Kafka
「Kafka應用」消費者
2021-01-05
Kafka
Dubbo服務消費者呼叫過程
2018-06-14
kafka消費者Consumer引數設定及引數調優建議-kafka 商業環境實戰
2018-11-14
Kafka
Kafka 1.0.0 多消費者示例
2018-09-26
Kafka
kafka消費者客戶端
2019-06-25
Kafka客戶端
記一次分割槽表update調優過程
2019-10-15
記一次效能調優
2019-01-19
Apache Kafka消費者再平衡 | TechMyTalk
2020-06-09
ApacheKafka
Kafka入門（4）：深入消費者
2020-09-11
Kafka
無鏡--kafka之消費者（四）
2021-09-09
Kafka
探索Kafka消費者的內部結構
2022-07-25
Kafka
kafka消費
2024-03-21
Kafka
kafka消費者提交方式（程式碼演示）
2024-05-02
Kafka
RocketMQ -- 訊息消費過程
2022-05-06
MQ
效能優化的過程學習
2020-11-07
優化
插曲：Kafka的生產者案例和消費者原理解析
2019-11-26
Kafka
移動消費者的下一站：中國移動消費者調研
2020-06-22
中國消費者協會：商品過度包裝問題研究及消費者感知調查報告
2023-04-14
Golang 的協程排程機制與 GOMAXPROCS 效能調優
2018-08-21
Golang
kafka_2.11-0.10.2.1 的生產者消費者的示例（new producer api）
2019-01-15
KafkaAPI
「Kafka應用」PHP實現生產者與消費者
2021-01-20
KafkaPHP
java的kafka生產消費
2020-12-01
JavaKafka
記一次生產者消費者讀取 200w 資料, 寫入 2000w 資料的過程
2019-05-29
Kafka中消費者延遲處理訊息
2024-05-25
Kafka
從消費者角度比較Kafka 與 RabbitMQ - OpenCredo
2021-08-18
KafkaMQ
阿里雲 KAFKA 消費者接收不到訊息
2020-12-16
阿里Kafka
一次效能測試調優總結
2019-08-17
ZEBRA：2023年全球消費者調查
2024-04-16
go dns解析過程及調優
2022-01-12
GoDNS
SpringBoot整合Kafka（生產者和消費者都是SpringBoot服務）
2020-12-02
Spring BootKafka
一次IO效能問題的發現過程
2024-05-01

一次 kafka 消費者的效能調優過程

背景

過程

第一次排查&最佳化（協程池化->約為0最佳化）

結果&問題

第二次排查&最佳化（定時器“洩漏” -> 初見成效）

結果&問題

第三次排查&最佳化（GMP的自旋 -> 更進一層）

結果

總結

參考文章

參考資料

相關文章