如何解決訊息佇列的延時以及過期失效問題？

李紅歐巴發表於2019-03-22

原文網址 : https://juejin.im/post/5c94a9d95188252d5379e2b8

面試題

如何解決訊息佇列的延時以及過期失效問題？訊息佇列滿了以後該怎麼處理？有幾百萬訊息持續積壓幾小時，說說怎麼解決？

面試官心理分析

你看這問法，其實本質針對的場景，都是說，可能你的消費端出了問題，不消費了；或者消費的速度極其慢。接著就坑爹了，可能你的訊息佇列叢集的磁碟都快寫滿了，都沒人消費，這個時候怎麼辦？或者是這整個就積壓了幾個小時，你這個時候怎麼辦？或者是你積壓的時間太長了，導致比如 RabbitMQ 設定了訊息過期時間後就沒了怎麼辦？

所以就這事兒，其實線上挺常見的，一般不出，一出就是大 case。一般常見於，舉個例子，消費端每次消費之後要寫 mysql，結果 mysql 掛了，消費端 hang 那兒了，不動了；或者是消費端出了個什麼岔子，導致消費速度極其慢。

面試題剖析

關於這個事兒，我們一個一個來梳理吧，先假設一個場景，我們現在消費端出故障了，然後大量訊息在 mq 裡積壓，現在出事故了，慌了。

大量訊息在 mq 裡積壓了幾個小時了還沒解決

幾千萬條資料在 MQ 裡積壓了七八個小時，從下午 4 點多，積壓到了晚上 11 點多。這個是我們真實遇到過的一個場景，確實是線上故障了，這個時候要不然就是修復 consumer 的問題，讓它恢復消費速度，然後傻傻的等待幾個小時消費完畢。這個肯定不能在面試的時候說吧。

一個消費者一秒是 1000 條，一秒 3 個消費者是 3000 條，一分鐘就是 18 萬條。所以如果你積壓了幾百萬到上千萬的資料，即使消費者恢復了，也需要大概 1 小時的時間才能恢復過來。

一般這個時候，只能臨時緊急擴容了，具體操作步驟和思路如下：

先修復 consumer 的問題，確保其恢復消費速度，然後將現有 consumer 都停掉。
新建一個 topic，partition 是原來的 10 倍，臨時建立好原先 10 倍的 queue 數量。
然後寫一個臨時的分發資料的 consumer 程式，這個程式部署上去消費積壓的資料，消費之後不做耗時的處理，直接均勻輪詢寫入臨時建立好的 10 倍數量的 queue。
接著臨時徵用 10 倍的機器來部署 consumer，每一批 consumer 消費一個臨時 queue 的資料。這種做法相當於是臨時將 queue 資源和 consumer 資源擴大 10 倍，以正常的 10 倍速度來消費資料。
等快速消費完積壓資料之後，得恢復原先部署的架構，重新用原先的 consumer 機器來消費訊息。

mq 中的訊息過期失效了

假設你用的是 RabbitMQ，RabbtiMQ 是可以設定過期時間的，也就是 TTL。如果訊息在 queue 中積壓超過一定的時間就會被 RabbitMQ 給清理掉，這個資料就沒了。那這就是第二個坑了。這就不是說資料會大量積壓在 mq 裡，而是大量的資料會直接搞丟。

這個情況下，就不是說要增加 consumer 消費積壓的訊息，因為實際上沒啥積壓，而是丟了大量的訊息。我們可以採取一個方案，就是批量重導，這個我們之前線上也有類似的場景幹過。就是大量積壓的時候，我們當時就直接丟棄資料了，然後等過了高峰期以後，比如大家一起喝咖啡熬夜到晚上12點以後，使用者都睡覺了。這個時候我們就開始寫程式，將丟失的那批資料，寫個臨時程式，一點一點的查出來，然後重新灌入 mq 裡面去，把白天丟的資料給他補回來。也只能是這樣了。

假設 1 萬個訂單積壓在 mq 裡面，沒有處理，其中 1000 個訂單都丟了，你只能手動寫程式把那 1000 個訂單給查出來，手動發到 mq 裡去再補一次。

mq 都快寫滿了

如果訊息積壓在 mq 裡，你很長時間都沒有處理掉，此時導致 mq 都快寫滿了，咋辦？這個還有別的辦法嗎？沒有，誰讓你第一個方案執行的太慢了，你臨時寫程式，接入資料來消費，消費一個丟棄一個，都不要了，快速消費掉所有的訊息。然後走第二個方案，到了晚上再補資料吧。

免費Java資料需要自己領取，涵蓋了Java、Redis、MongoDB、MySQL、Zookeeper、Spring Cloud、Dubbo/Kafka、Hadoop、Hbase、Flink等高併發分散式、大資料、機器學習等技術。
傳送門：mp.weixin.qq.com/s/JzddfH-7y…

Redis 應用-非同步訊息佇列與延時佇列
2019-07-05
Redis非同步佇列
[Redis]延遲訊息佇列
2024-08-17
Redis佇列
RabbitMQ高階之訊息限流與延時佇列
2020-09-03
MQ佇列
訊息佇列常見問題分析
2020-09-25
佇列
深入剖析：如何使用Pulsar和Arthas高效排查訊息佇列延遲問題
2024-05-07
佇列
訊息佇列-一篇讀懂rabbitmq(生命週期，confirm模式，延遲佇列，叢集)
2020-07-11
佇列MQ模式
「訊息佇列」看過來！
2019-07-16
佇列
面試官：RabbitMQ過期時間設定、死信佇列、延時佇列怎麼設計？
2022-04-13
面試MQ佇列
如何解決 MySQL 主從延時問題？
2023-11-01
MySql
訊息佇列系列一：訊息佇列應用
2021-05-24
佇列
如何解決Redis中的key過期問題
2019-04-30
Redis
延時佇列（RabbitMQ）
2024-10-24
佇列MQ
Kafka 延時佇列&重試佇列
2022-07-06
Kafka佇列
訊息佇列
2024-05-28
佇列
如何解決快取失效問題
2023-02-26
快取
RabbitMQ延時佇列的使用
2020-11-05
MQ佇列
《RabbitMQ》| 解決訊息延遲和堆積問題
2021-11-08
MQ
Delayer 基於 Redis 的延遲訊息佇列中介軟體
2019-02-16
Redis佇列
基於訊息佇列（RabbitMQ）實現延遲任務
2022-03-08
佇列MQ
RabbitMQ：偽延時佇列
2018-08-24
MQ佇列
RabbitMQ 訊息佇列之佇列模型
2018-11-13
MQ佇列模型
訊息佇列常見面試題
2020-12-14
佇列面試題
kafka 訊息佇列
2018-07-29
Kafka佇列
訊息佇列（MQ）
2019-07-13
佇列MQ
[Redis]訊息佇列
2024-10-02
Redis佇列
[訊息佇列]rocketMQ
2024-07-26
佇列MQ
[訊息佇列]RabbitMQ
2024-07-29
佇列MQ
Kafka訊息佇列
2022-01-09
Kafka佇列
RabbitMQ訊息佇列
2021-07-29
MQ佇列
RabbitMQ使用 prefetch_count優化佇列的消費，使用死信佇列和延遲佇列實現訊息的定時重試，golang版本
2022-01-07
MQ優化佇列Golang
訊息佇列的作用以及kafka和activemq的對比
2018-12-14
佇列KafkaMQ
React如何解決fetch跨域請求時session失效問題
2018-11-27
React跨域Session
訊息佇列中的Oracle
2021-12-11
佇列Oracle
php訂單延時處理-延時佇列
2018-11-01
PHP佇列
RabbitMQ訊息佇列入門及解決常見問題
2023-02-07
MQ佇列
全面理解Handler-1：理解訊息佇列，手寫訊息佇列
2018-09-29
佇列
rabbitmq訊息佇列原理
2018-08-12
MQ佇列
訊息佇列之 RocketMQ
2018-05-07
佇列MQ