Kafka 如何保證訊息消費的全域性順序性

鹹魚Linux運維發表於2023-11-27

哈嘍大家好,我是鹹魚

今天我們繼續來講一講 Kafka

當有訊息被生產出來的時候,如果沒有指定分割槽或者指定 key ,那麼消費會按照【輪詢】的方式均勻地分配到所有可用分割槽中,但不一定按照分割槽順序來分配


我們知道,在 Kafka 中消費者可以訂閱一個或多個主題,並被分配一個或多個分割槽

如果一個消費者消費了多個分割槽,某些場景下消費者需要順序地消費訊息,但訊息並不是按照順序分配給分割槽的,所以就不一定能夠保證訊息消費的全域性順序性

比如下圖中 Msg0002 訊息並不是在 Msg0001 訊息之後的,就有可能導致消費者先把 Msg0002 訊息給消費, Msg0001 訊息才被消費

那麼這種情況該怎麼解決?如何儘可能地保證訊息消費的全域性順序性?(即這些訊息具有因果關係)要想消費訊息 B 必須先消費訊息 A

要注意的是,Kafka 的設計目標是提供高吞吐量和低延遲,而不是強制保證全域性有序性

所以這篇文章探討的是需要強調全域性順序性場景下的 Kafka 應用

單分割槽

最簡單粗暴的方法,雖然 Kafka 不能保證全域性消費順序性,但是能夠保證分割槽內的訊息順序性

所以我們可以只建立一個分割槽,並讓消費者消費這個分割槽,這樣就能夠保證消費的訊息是有序的

但是這樣做大大降低了吞吐量和處理效率,容易使得效能出現瓶頸

基於 key

在 Kafka 中,基於 key 的訊息分配策略是透過訊息中的鍵(key)來確定訊息傳送到哪個分割槽

當生產者傳送訊息時,可以指定一個鍵(key),Kafka 使用這個鍵透過雜湊演算法來確定訊息被髮送到哪個分割槽

由於相同的 key 就傳送到同一分割槽,這樣就能夠保證了消費的訊息是有序的

然而,如果只有一個消費者消費相同 key 的訊息,那麼與單分割槽相比,基於 key 的訊息分配策略不會提高吞吐量

因為即使相同 key 的訊息在多個分割槽中,但同一消費者依然只能從一個分割槽中消費,這並不會增加整體的處理能力。

但如果有多個消費者消費相同 key 的訊息,基於 key 的分割槽策略可以提高消費者並行消費的能力


因為這些消費者可以同時從不同分割槽中讀取訊息,從而增加整體的處理速度。這種情況下,基於 key 的訊息分配可以提高整體吞吐量

最後總結一下:

  • Kafka 的設計目標是提供高吞吐量和低延遲,而不是強制保證全域性有序性,所以Kafka使用多分割槽的概念,並且只保證單分割槽有序

  • 如果想要實現訊息的全域性有序

    • 單分割槽策略:

      一個主題下只建立一個分割槽,一個消費者只消費一個分割槽,但這樣做毫無併發性可言,極大降低系統效能

    • 基於 key 的訊息分配策略:

      由於相同的 key 就傳送到同一分割槽,這樣就能夠保證了消費的訊息是有序的。然而,如果只有一個消費者消費相同 key 的訊息,與前面單分割槽相比沒有什麼區別