透過 Pulsar 原始碼徹底解決重複消費問題

crossoverJie發表於2023-02-28

原文網址 : https://segmentfault.com/a/1190000043473899

原始碼

背景

最近真是和 Pulsar 槓上了，業務團隊反饋說是線上有個應用訊息重複消費。

而且在測試環境是可以穩定復現的，根據經驗來看一般能穩定復現的都比較好解決。

定位問題

接著便是定位問題了，根據之前的經驗讓業務按照這幾種情況先排查一下：

透過排查：1,2可以排除了。

沒有相關日誌
存在異常，但最外層也捕獲了，所以不管有無異常都會 ACK。

第三個也在消費的入口和提交訊息出計算了時間，最終發現都是在2s左右 ACK 的。

虛擬碼如下：

        Consumer consumer = client.newConsumer()
                .subscriptionType(SubscriptionType.Shared)
                .enableRetry(true)
                .topic(topic)
                .ackTimeout(30, TimeUnit.SECONDS)
                .subscriptionName("my-sub")
                .messageListener(new MessageListener<byte[]>() {
                    @SneakyThrows
                    @Override
                    public void received(Consumer<byte[]> consumer, Message<byte[]> msg) {
                        log.info("msg_id{}",msg.getMessageId().toString());
                        TimeUnit.SECONDS.sleep(2);
                        consumer.acknowledge(msg);
                    }
                })
                .subscribe();

那這就很奇怪了，因為程式碼裡配置的 ackTimeout 是 30s，理論上來說是不會存在超時導致訊息重發的。

為了排除是否是超時引起的，直接將業務程式碼註釋掉了，等於是訊息收到後立即就 ACK，經過測試發現這樣確實就沒有重複消費了。

為了再次確認是不是和 ackTimeout 有關，直接將 .ackTimeout(30, TimeUnit.SECONDS) 註釋掉後測試，發現也沒有重複消費了。

確認原因

既然如此那一定是和這個配置有關了，但看程式碼確實沒有超時，為了定位具體原因只有去看 client 的原始碼了。

這裡簡單梳理下訊息的消費的流程：

根據 .receiverQueueSize(1000) 的配置，預設情況下 broker 會直接給客戶端推送 1000 條訊息。
客戶端將這 1000 條訊息儲存到內部佇列中。
如果使用同步消費 receive() 時，本質上就是去 take 這個內部佇列。
如果是使用的是 messageListener 非同步消費並配置 ackTimeout，每當從佇列裡獲得一條訊息後便會把這條訊息加入 UnAckedMessageTracker 內部的一個時間輪中，定時檢測頂部是否存在訊息，如果存在則會觸發重新投遞。
4.1 加入時間輪後，非同步呼叫我們自定義的事件，這個非同步操作是提交到一個無界佇列中由單個執行緒依次排隊執行（這點是這次問題的關鍵）
業務 ACK 的時候會從時間輪中刪除訊息，所以如果訊息 ACK 的足夠快，在第四步就不會獲取到訊息進行重新投遞。

整體流程如上圖，程式碼細節如下圖：

所以問題的根本原因就是寫入時間輪（UnAckedMessageTracker）開始倒數計時的執行緒和回撥業務邏輯的不是同一個執行緒。

如果業務執行耗時，等到訊息從那個單執行緒的無界佇列中取出來的時候很有可能已經過了 ackTimeou 的時間，從而導致了超時重發。

也就是使用者所理解的 ackTimeout 週期（應該進入回撥時候開始計時）和 SDK 實現的不一致造成的。

之後我再次確認同樣的程式碼換為同步消費是沒有問題的，不會導致重複消費：

while (true) {
Message msg = consumer.receive();
            log.info(
                    "consumer Message received: " + new String(msg.getData()) + msg.getMessageId().toString());
            TimeUnit.SECONDS.sleep(2);
            consumer.acknowledge(msg);	
}

檢視程式碼後發現同步程式碼的獲取訊息和加入 UnAckedMessageTracker 時間輪是同步的，也就不會出現超時的問題。

總結

所以其實是messageListener 非同步消費的 ackTimeout 的語義是有問題的，需要將加入 UnAckedMessageTracker 處移動到回撥函式中同步呼叫。

我檢視了最新的 2.11.x 版本的程式碼依然沒有修復，正準備提個 PR 切換到 master 時才發現已經有相關的 PR 了，只是還沒有發版。

修復的背景和思路也是類似的，具體參考：

https://github.com/apache/pulsar/pull/18911

其實業務中並不推薦使用 ackTimeout 這個配置了，不好預估時間從而導致超時，而且我相信大部分業務配置好 ackTImeout 後直到後續出問題的時候才想起來要改。
所以乾脆一開始就不要使用。

在 go 版本的 SDK 中直接廢棄掉了這個引數，推薦使用 nack API 替換。

Pulsar 也會重複消費?
2022-03-23
徹底解決Python編碼問題
2020-04-25
Python
解決RabbitMQ訊息丟失與重複消費問題
2018-07-08
MQ
徹底解決Hive小檔案問題
2021-09-20
Hive
Spring Boot + Redis 解決陪玩平臺原始碼重複提交問題
2021-12-15
Spring BootRedis原始碼
如何徹底解決pip install慢的問題
2021-06-14
探索RocketMQ的重複消費和亂序問題
2020-11-13
MQ
徹底解決第三方分享icon過大的問題
2018-05-28
Android原始碼角度分析事件分發消費（徹底整明白Android事件）
2019-02-26
Android原始碼事件
MySQL 8.0能徹底解決困擾運維的複製延遲問題！
2018-08-14
MySql運維
RabbitMQ如何解決被重複消費和資料丟失的問題？
2018-11-05
MQ
“田由甲” - Kafka重複消費線上問題暴雷
2024-03-10
Kafka
徹底解決Asp.netCore WebApi 3.1 跨域時的預檢查204 options重複請求的問題
2021-02-20
ASP.NETNetCoreWebAPI跨域
Springboot+Redisson自定義註解一次解決重複提交問題（含原始碼）
2022-02-11
Spring BootRedis原始碼
解決winform窗體重複建立問題
2024-06-11
ORM
徹底搞懂 python 中文亂碼問題
2018-04-17
Python
九種 “姿勢” 讓你徹底解決跨域問題
2019-01-06
跨域
手把手教你寫網路爬蟲（8）：徹底解決亂碼問題
2018-05-14
爬蟲
筆記-runtime原始碼解析之讓你徹底瞭解底層原始碼
2019-03-28
筆記原始碼
快速解決mongodb出現id重複問題
2022-12-10
MongoDB
透過Treeset解決隨機數排序問題
2024-03-13
隨機排序
解決直播商城原始碼中，getView被重複呼叫
2021-09-25
原始碼View
透徹分析和解決一切javaWeb專案亂碼問題
2020-02-15
JavaWeb
透過迴圈引用問題來分析Spring原始碼
2021-09-09
Spring原始碼
HashMap原始碼分析(二):看完徹底瞭解HashMap
2019-07-18
HashMap原始碼
解決Linq.ToDictionary()時的鍵重複問題
2019-02-16
解決alertmanager重複傳送訊息的問題
2020-10-11
解決生產日誌重複列印的問題
2021-06-01
實際業務處理 Kafka 訊息丟失、重複消費和順序消費的問題
2022-04-05
Kafka
一次弄懂Event Loop（徹底解決此類面試問題）
2019-01-20
OOP面試
徹底解決關於CSocket類的Receive超時的問題（轉）
2018-07-12
使用Seata徹底解決Spring Cloud中的分散式事務問題！
2019-11-20
SpringCloud分散式
16.徹底解決Jmap在mac版本無法使用的問題
2021-11-09
Mac
徹底解決SLF4J的日誌衝突的問題
2021-11-05
【徹底搞懂】vite proxy如何解決跨域問題
2023-05-16
Vite跨域
kafka 消費組功能驗證以及消費者資料重複資料丟失問題說明 3
2020-12-04
Kafka
Java IO 建立檔案解決檔名重複問題
2018-03-17
Java
解決spring security自定義filter重複執行問題
2020-02-10
SpringFilter

透過 Pulsar 原始碼徹底解決重複消費問題

背景

定位問題

確認原因

總結

相關文章