一次 RocketMQ 順序消費延遲的問題定位

乾貨滿滿張雜湊發表於2021-07-01

原文網址 : https://www.cnblogs.com/zhxdick/p/14960339.html

一次 RocketMQ 順序消費延遲的問題定位

問題背景與現象

昨晚收到了應用報警，發現線上某個業務消費訊息延遲了 54s 多（從訊息傳送到MQ 到被消費的間隔）：

2021-06-30T23:12:46.756 message processing is incredibly delayed! (Current delay time: 54725, incredible delay count in 10 seconds: 5677)

檢視 RocketMQ 的監控，發現確實發生了比較多的訊息積壓：

從 RocketMQ-Console 上面檢視 Topic 的消費者：

這個 Topic，業務要求是需要有序的。所以在傳送的時候，指定了業務 Key，並且消費的時候，使用的是順序消費模式。

我們使用了 RocketMQ 叢集，有三個 Broker，對於這個 Topic，每個 Broker 上面都有 8 個 ReadQueue 和 WriteQueue。這裡簡單提一下 ReadQueue 和 WriteQueue 的意思：

在 RocketMQ 中，訊息傳送時使用 WriteQueue 個數返回路由資訊，而訊息消費時按照 ReadQueue 個數返回路由資訊。在物理檔案層面，只有 WriteQueue 才會建立檔案。舉個例子：設定 WriteQueueNum = 8，ReadQueueNum = 4，會建立 8 個資料夾，代表 0 1 2 3 4 5 6 7 這 8 個佇列，但在訊息消費時，路由資訊只返回 4，在具體拉取訊息時，就只會消費0 1 2 3 這 4 個佇列中的訊息，4 5 6 7 壓根就沒有被消費。反過來，如果設定 WriteQueueNum = 4，ReadQueueNum = 8，在生產訊息時只會往0 1 2 3中生產訊息，消費訊息時則會從0 1 2 3 4 5 6 7 所有的佇列中消費，當然 4 5 6 7中壓根就沒有訊息，假設消費是 Group 消費，Group 中有兩個消費者，事實上只有第一個消費者在真正的消費訊息(0 1 2 3)，第二個消費者壓根就消費不到訊息(4 5 6 7)。一般我們都會設定這兩個值相同，只有在需要縮容 topic 的佇列數量的時候，才會設定他們不同。

問題分析

首先聯想到的是，是否是消費執行緒卡住了呢？執行緒卡住一般因為：

發生了 Stop-the-wolrd：
GC 導致
其他 safepoint 原因導致（例如 jstack，定時進入 safepoint 等等，參考我的這篇文章JVM相關 - SafePoint 與 Stop The World 全解）
執行緒處理訊息時間過長，可能有鎖獲取不到，可能卡在某些 IO

採集當時的 JFR（關於 JFR，請參考我的另一系列JFR全解），發現：

在這個時間段並沒有發生停滯時間很長的 GC 以及其他 Stop-the-world 的 safepoint 事件：

在這段時間，執行緒是 park 的，並且堆疊顯示是消費執行緒並沒有訊息可以消費：

既然應用並沒有什麼問題，我們來看看 RocketMQ 是否有什麼問題。一般的 RocketMQ Broker 的日誌我們關心：

訊息持久化的時間消耗統計，如果這裡發生異常，我們需要調優 Java MMAP 相關的引數，請參考：
訊息持久化異常，檢視 storeerr.log
鎖異常，檢視 lock.log

那究竟應該去看哪一個 broker 呢？之前提到了，傳送到這個 Topic 是指定了 hashKey 的，通過訊息的 hashKey 我們可以定位到是哪個 broker：

int hashCode = "我們的hashKey".hashCode();
log.info("{}", Math.abs(hashCode % 24));

我們找到了訊息的 hashKey，通過上面的程式碼，結果是 20，也就是佇列 20，通過前面的描述，我們知道每個 broker 是 8 個佇列，20 對應的就是 broker-2 上面的佇列，也就是 broker-2 queueId = 5 這個佇列。我們來檢視 broker-2 上面的日誌定位問題。

我們發現 lock.log 裡面有異常，如下所示，類似的有很多條，並且持續了 54s 左右，和執行緒 park 時間比較吻合，也和訊息延遲比較吻合：

2021-07-01 07:11:47 WARN AdminBrokerThread_10 - tryLockBatch, message queue locked by other client. Group: 消費group OtherClientId: 10.238.18.6@29 NewClientId: 10.238.18.122@29 MessageQueue [topic=訊息topic, brokerName=broker-2, queueId=5]

這個日誌的意思是，10.238.18.122@29 這個例項嘗試鎖住 queueId = 5 失敗，因為 10.238.18.6@29 正在持有這個鎖。那麼為什麼會發生這種情況呢？

RocketMQ 多佇列順序消費的原理

RocketMQ 想要實現多佇列順序消費，首先需要指定 hashKey，通過 hashKey 訊息會被放入特定的佇列，消費者消費這個佇列的時候，如果指定了順序消費，是單執行緒消費的，這樣就保證了同一佇列內有序。

那麼是如何保證每個佇列是單執行緒消費的呢？每個 Broker 維護一個：

private final ConcurrentMap<String/* group */, ConcurrentHashMap<MessageQueue, LockEntry>> mqLockTable =
        new ConcurrentHashMap<String, ConcurrentHashMap<MessageQueue, LockEntry>>(1024);

他是一個 ConcurrentMap<消費組名稱, ConcurrentHashMap<訊息佇列, 鎖物件>>。鎖物件 LockEntry 包括：

RebalanceLockManager.java:

//讀取 rocketmq.broker.rebalance.lockMaxLiveTime 這個環境變數，預設 60s
private final static long REBALANCE_LOCK_MAX_LIVE_TIME = Long.parseLong(System.getProperty(
        "rocketmq.broker.rebalance.lockMaxLiveTime", "60000"));
static class LockEntry {
    //RocketMQ 客戶端唯一 id
    private String clientId;
    private volatile long lastUpdateTimestamp = System.currentTimeMillis();
    
    //省略getter setter
    
    public boolean isLocked(final String clientId) {
        boolean eq = this.clientId.equals(clientId);
        return eq && !this.isExpired();
    }

    public boolean isExpired() {
        // 在 REBALANCE_LOCK_MAX_LIVE_TIME 這麼長時間後過期
        boolean expired =
            (System.currentTimeMillis() - this.lastUpdateTimestamp) > REBALANCE_LOCK_MAX_LIVE_TIME;

        return expired;
    }
}

RocketMQ 客戶端傳送 LOCK_BATCH_MQ 請求到 Broker 上面，Broker 會將客戶端請求封裝成為 LockEntry 並嘗試更新這個 Map，如果更新成功就是獲取到了鎖，如果失敗則沒有獲取這個鎖。Broker 的詳細更新邏輯是（感興趣可以檢視，也可以直接跳過，不影響理解，後面有便於理解的圖片）：

public boolean tryLock(final String group, final MessageQueue mq, final String clientId) {
    //判斷沒有已經鎖住
    if (!this.isLocked(group, mq, clientId)) {
        try {
            //獲取鎖，這個鎖是例項內的，因為每個 broker 維護自己的佇列鎖表，並不共享
            this.lock.lockInterruptibly();
            try {
                //嘗試獲取，判斷是否存在，存在就判斷是否過期
                ConcurrentHashMap<MessageQueue, LockEntry> groupValue = this.mqLockTable.get(group);
                if (null == groupValue) {
                    groupValue = new ConcurrentHashMap<>(32);
                    this.mqLockTable.put(group, groupValue);
                }
                
                LockEntry lockEntry = groupValue.get(mq);
                if (null == lockEntry) {
                    lockEntry = new LockEntry();
                    lockEntry.setClientId(clientId);
                    groupValue.put(mq, lockEntry);
                    log.info("tryLock, message queue not locked, I got it. Group: {} NewClientId: {} {}",
                        group,
                        clientId,
                        mq);
                }

                if (lockEntry.isLocked(clientId)) {
                    lockEntry.setLastUpdateTimestamp(System.currentTimeMillis());
                    return true;
                }

                String oldClientId = lockEntry.getClientId();

                if (lockEntry.isExpired()) {
                    lockEntry.setClientId(clientId);
                    lockEntry.setLastUpdateTimestamp(System.currentTimeMillis());
                    log.warn(
                        "tryLock, message queue lock expired, I got it. Group: {} OldClientId: {} NewClientId: {} {}",
                        group,
                        oldClientId,
                        clientId,
                        mq);
                    return true;
                }
                //這裡就是我們剛剛看到的日誌
                log.warn(
                    "tryLock, message queue locked by other client. Group: {} OtherClientId: {} NewClientId: {} {}",
                    group,
                    oldClientId,
                    clientId,
                    mq);
                return false;
            } finally {
                this.lock.unlock();
            }
        } catch (InterruptedException e) {
            log.error("putMessage exception", e);
        }
    } else {

    }

    return true;
}
//判斷是否是已經鎖住了
private boolean isLocked(final String group, final MessageQueue mq, final String clientId) {
    //通過消費組名稱獲取
    ConcurrentHashMap<MessageQueue, LockEntry> groupValue = this.mqLockTable.get(group);
    //如果不為 null
    if (groupValue != null) {
        //嘗試獲取 lockEntry，看是否存在
        LockEntry lockEntry = groupValue.get(mq);
        if (lockEntry != null) {
            //如果存在，判斷是否過期
            boolean locked = lockEntry.isLocked(clientId);
            if (locked) {
                lockEntry.setLastUpdateTimestamp(System.currentTimeMillis());
            }

            return locked;
        }
    }

    return false;
}

每個 MQ 客戶端，會定時傳送 LOCK_BATCH_MQ 請求，並且在本地維護獲取到鎖的所有佇列：

ProcessQueue.java:

//定時傳送 **LOCK_BATCH_MQ** 間隔
public final static long REBALANCE_LOCK_INTERVAL = Long.parseLong(System.getProperty("rocketmq.client.rebalance.lockInterval", "20000"));

ConsumeMessageOrderlyService.java:

if (MessageModel.CLUSTERING.equals(ConsumeMessageOrderlyService.this.defaultMQPushConsumerImpl.messageModel())) {
    this.scheduledExecutorService.scheduleAtFixedRate(new Runnable() {
        @Override
        public void run() {
            ConsumeMessageOrderlyService.this.lockMQPeriodically();
        }
    }, 1000 * 1, ProcessQueue.REBALANCE_LOCK_INTERVAL, TimeUnit.MILLISECONDS);
}

流程圖如下所示：

ConsumeMessageOrderlyService 在關閉的時候，會 unlock 所有的佇列：

public void shutdown() {
    this.stopped = true;
    this.scheduledExecutorService.shutdown();
    this.consumeExecutor.shutdown();
    if (MessageModel.CLUSTERING.equals(this.defaultMQPushConsumerImpl.messageModel())) {
        this.unlockAllMQ();
    }
}

問題出現原因

我們這裡客戶端定時傳送 LOCK_BATCH_MQ 間隔是預設的 20s， Broker 端鎖過期的時間也是預設的 60s。

我們的叢集容器編排使用了 k8s，並且有例項遷移的功能。在叢集壓力大的時候，自動擴容新的 Node （可以理解為虛擬機器）並將建立新的服務例項部署上去。叢集某些服務壓力小的時候，某些服務例項會縮容下去，這時候就不需要那麼多 Node 了，就會回收一部分 Node，但是被回收的 Node 上面還有不能縮容的服務例項，這時候就需要將這些服務例項遷移到其他 Node 上面。這裡我們的業務例項就是發生了這個情況。

在問題出現的時候，發生了遷移，老的例項被關閉，但是沒有等待 ConsumeMessageOrderlyService#shutdown 的執行，導致鎖沒有被主動釋放，而是等待 60s 的鎖過期時間後，新的例項才拿到佇列鎖開始消費。

問題解決

在下個版本，加入針對 RocketMQ 客戶端的優雅關閉邏輯
所有服務例項（RocketMQ 客戶端）配置 rocketmq.client.rebalance.lockInterval 縮短心跳時間（5s），RocketMQ Broker 配置 rocketmq.broker.rebalance.lockMaxLiveTime 縮短過期時間（例如 15s），但是保持過期時間是心跳時間的 3 倍（叢集中的 3 倍設計公理）

微信搜尋“我的程式設計喵”關注公眾號，每日一刷，輕鬆提升技術，斬獲各種offer：

RocketMQ(7)---RocketMQ順序消費
2019-07-05
MQ
RocketMQ系列（四）順序消費
2020-06-10
MQ
RocketMq如何順序消費的訊息offest
2022-02-06
MQ
探索RocketMQ的重複消費和亂序問題
2020-11-13
MQ
記一次RocketMQ消費非順序訊息引起的線上事故
2024-06-30
MQ
影像延遲載入 && 列表圖順序載入
2019-05-09
實際業務處理 Kafka 訊息丟失、重複消費和順序消費的問題
2022-04-05
Kafka
RocketMQ部分資料消費不了問題排查
2019-03-01
MQ
你的Redis為什麼變慢了？常見延遲問題定位與分析
2020-09-29
Redis
kafka多執行緒順序消費
2024-05-28
Kafka執行緒
Kafka中消費者延遲處理訊息
2024-05-25
Kafka
RabbitMQ多消費者順序性消費訊息實現
2021-11-03
MQ
分析伺服器延遲的問題
2019-11-11
伺服器
關於RocketMQ的順序訊息
2024-09-28
MQ
Jetpack Compose的Modifier順序問題
2021-12-19
Jetpack
RabbitMQ、RocketMQ、Kafka延遲佇列實現
2022-12-22
MQKafka佇列
spring-kafka多執行緒順序消費
2019-10-10
SpringKafka執行緒
定時器(setTimeout/setInterval)最小延遲的問題
2019-01-09
定時器
RocketMQ系列（五）廣播與延遲訊息
2020-06-11
MQ
美國伺服器延遲高怎麼辦，如何解決延遲問題
2023-04-18
伺服器
問題排查|為啥RocketMQ廣播消費每次啟動都會從頭開始消費？
2022-12-19
MQ
Dyno-queues 分散式延遲佇列之生產消費
2021-02-21
分散式佇列
Kafka 如何保證訊息消費的全域性順序性
2023-11-27
Kafka
MySQL之從複製延遲問題排查
2018-09-06
MySql
[20190218]延遲約束問題2.txt
2019-02-18
伺服器延遲問題如何解決
2022-06-23
伺服器
第78篇 Redis常見延遲問題
2024-12-09
Redis
RocketMQ - 消費者概述
2023-02-23
MQ
mysql order by 和 group by 順序問題
2018-09-12
MySql
移動端順序問題上
2020-09-29
疫情延遲題解
2024-10-14
第四十六章：SpringBoot & RabbitMQ完成訊息延遲消費
2018-06-23
Spring BootMQ
『開源』大半夜除錯TCP延遲問題
2024-03-30
除錯TCP
怎麼解決伺服器延遲問題
2022-06-21
伺服器
Google 怎麼解決長尾延遲問題
2021-05-10
Go
QWidget設定layout時的延遲重新整理問題
2020-11-05
MySQL：讀取my.cnf的順序問題
2021-02-16
MySql
SQL語句中的AND和OR執行順序問題
2020-11-26
SQL

一次 RocketMQ 順序消費延遲的問題定位

一次 RocketMQ 順序消費延遲的問題定位

問題背景與現象

問題分析

RocketMQ 多佇列順序消費的原理

問題出現原因

問題解決

相關文章