kafka ISR設計及水印與leader epoch副本同步機制深入剖析-kafka 商業環境實戰

開心雲技術社群發表於2018-11-22

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：1120746959@qq.com，如有任何商業交流，可隨時聯絡。

1 帽子理論（Gilbert 和 Lynch ）

一致性

  any read operation that begins after a write operation completes must 
  return that value, or the result of a later write operation

  通過某個節點的寫操作結果對後面通過其它節點的讀操作可見
  
  強一致性：
  如果更新資料後，併發訪問情況下後續讀操作可立即感知該更新，稱為強一致性。
  
  弱一致性：
  如果允許之後部分或者全部感知不到該更新，稱為弱一致性。
  
  最終一致性：
  若在之後的一段時間（通常該時間不固定）後，一定可以感知到該更新，稱為最終一致性。
複製程式碼

可用性（Availability）

  every request received by a non-failing node in the system must result in a response

  任何一個沒有發生故障的節點必須在有限的時間內返回合理的結果。
複製程式碼

分割槽容忍性（Partition Tolerance）

  the network will be allowed to lose arbitrarily many messages sent from one node to another

  部分節點當機或者無法與其它節點通訊時，各分割槽間還可保持分散式系統的功能。
複製程式碼

悖論總結：

可用性限定在無論是否叢集節點當機，只要有活著的節點，就會立即返回請求結果。若要限制返回結果必須是最近一次寫的結果，就比較悲劇，若允許分割槽容忍性 => 分散式系統分割槽之間就存在資料同步機制，那麼就有可能因為分割槽心跳切斷，導致資料不一致。

2 partition本質就是為了日誌備份（對外最小的儲存單元）

Kafka中topic的每個partition有一個預寫式的日誌檔案，雖然partition可以繼續細分為若干個segment檔案，但是對於上層應用來說可以將partition看成最小的儲存單元（一個有多個segment檔案拼接的“巨型”檔案），每個partition都由一些列有序的、不可變的訊息組成，這些訊息被連續的追加到partition中。

kafka ISR設計及水印與leader epoch副本同步機制深入剖析-kafka 商業環境實戰

partition本質就是為了日誌備份，利用多份日誌檔案的副本（replica）備份來共同提供冗餘機制來保持系統的高可用性。
kafka會把副本均勻的分配到所有的Broker上。在其中所有的副本中，會挑選一個Leader副本來對外提供服務，其他的副本統稱為follower副本，只能被動的向leader副本請求資料。

3 Partitioner 三分天下

下圖展示了3個Partition把一個Topic主題資料流分成三份，通過Partioner路由依次追加到分割槽的末尾中。如果partition規則設定的合理，所有訊息可以均勻分佈到不同的partition裡，這樣就實現了水平擴充套件。

config/server.properties可以設定num.partitions引數，實現主題資料分流。

3 Leader副本競選上崗（in-sync replicas）

每一個分割槽都存在一個in-sync replicas。
in-sync replicas集合中的每一個副本都與leader保持同步狀態，不在裡面的保持不了同步狀態。
只有ISR中的副本才有資格被選為leader。
Producer寫入的訊息只有被ISR中的副本都接收到，才被視為"已提交"。

4 水印HW與末端位移LEO => Leader副本

這裡著重強調一下，Leader副本水印HW才真正決定了對外可看到的訊息數量。
所有的副本都有LEO和HW。
Leader副本水印HW的更新發生在所有的副本都更新了最新的LEO後，Leader副本最終才認為可以更新Leader副本水印。

5 ISR設計優化（replica.lag.max.messages廢棄）

解決了producer突然發起一大波訊息，從而產生瞬時高峰流量。若設定replica.lag.max.messages=4，則follower副本會被瞬時的拉開距離，從而導致follower副本瞬間被踢出ISR。不過一段時間follower副本同步後，會再次進入ISR。
同步不同步，同步不同步反覆出現，是多大的效能浪費。
0.9.0.0開始採用 replica. lag. time. max. ms，預設是10s，可謂是明智之舉。

6 HW同步機制(Leader與follower的愛恨纏綿)

6.1 指哪打哪（HW指向哪裡？）

這裡重點強調，都是無論HW還是LEO都是指向下一條訊息
舉例如下：如果一個普通topic的某個分割槽副本的LEO是10，那麼該副本當前儲存了10條訊息，位移值範圍是[0, 9]。此時若有一個producer向該副本插入一條訊息，則該條訊息的位移值是10，而副本LEO值則更新成11。

6.2 Leader與follower的HW愛恨纏綿（兩階段請求定終身）

follower 副本會不斷地向leader副本傳送Fetch請求

（1）follower 副本物件何時更新LEO？

follower 副本專屬執行緒不斷地向leader副本所在broker傳送FETCH請求。

leader 副本傳送 FETCH response 給follower副本。

Follower 拿到response之後取出位移資料寫入到本地底層日誌中，在該過程中其LEO值會被更新。
複製程式碼

（2）leader 端非自己副本物件何時更新LEO？

leader 端非自己副本物件 LEO值是在leader端broker處理FETCH請求過程中被更新的。
複製程式碼

（3） follower 副本物件何時更新HW？

Follower 副本物件更新HW是在其更新本地LEO之後。

一旦follower向本地日誌寫完資料後它就會嘗試更新其HW值。
演算法為取本地LEO與FETCH response中HW值的較小值
複製程式碼

（4）leader 副本物件何時更新HW？

Leader 副本物件處理 Follower FETCH請求時在更新完leader 端非自己副本物件的LEO後將嘗試更新其自己HW值

producer 端寫入訊息會更新leader Replica的LEO

副本被踢出ISR時

某分割槽變更為leader副本後
複製程式碼

（5）兩階段請求定終身：

第一次fetch請求僅獲得了當前的資料，fetchOffset < Leader LEO, 因為leader 端的非自己的副本leo 是根據fetch請求確定的，因此，只有第二次請求時，fetchOffset才會和Leader LEO相等，進而更新 leader HW ，進而響應為 leader HW，進而更新 Folloer HW。

6.3 HW更新延遲帶來的刀山火海

因為 fetchOffset是實實在在的需要位移。所以只有第二輪請求時，Follower才會在其現有位移的基礎上，加1進行請求，從而連鎖更新會更新Leader非自己remoteLEO 和 Leader HW 和 Follower HW。
刀山火海就在一輪請求和第二輪請求之間發生了。

7 刀山火海敬請期待

本文實在麻煩，大牛的技術部落格看起來總總有些詞不達意，我順便就直介面語化,希望帶來不同的效果。技術就是一層窗戶紙，看我把kafka和spark剖析的體無完膚。香港美景，一覽眾山小，技術道路上毅然前行！！

秦凱新於深圳 201811230124

kafka日誌索引儲存及Compact壓實機制深入剖析-kafka 商業環境實戰
2018-11-25
Kafka索引
kafka叢集Producer基本資料結構及工作流程深入剖析-kafka 商業環境實戰
2018-12-02
Kafka資料結構
kafka精確一次語義EOS的原理深入剖析-kafka 商業環境實戰
2019-03-02
Kafka
kafka Poll輪詢機制與消費者組的重平衡分割槽策略剖析-kafka 商業環境實戰
2018-11-14
Kafka
kafka rebalance 機制與Consumer多種消費模式案例應用實戰-kafka 商業環境實戰
2018-11-11
Kafka模式
kafka生產環境規劃-kafka 商業環境實戰
2018-10-27
Kafka
深入理解 Kafka 副本機制
2019-06-28
Kafka
kafka叢集Broker端基於Reactor模式請求處理流程深入剖析-kafka商業環境實戰
2018-12-02
KafkaReact模式
HBase Memstore專屬JVM策略MSLAB機制深入剖析-OLAP商業環境實戰
2019-02-21
JVM
kafka生產者Producer引數設定及引數調優建議-kafka 商業環境實戰
2018-10-28
Kafka
kafka消費者Consumer引數設定及引數調優建議-kafka 商業環境實戰
2018-11-14
Kafka
kafka叢集管理重要操作指令運維兵書-kafka 商業環境實戰
2018-11-04
Kafka運維
深入剖析Kafka
2020-01-17
Kafka
實戰Kafka ACL機制
2018-06-17
Kafka
kafka生產者和消費者吞吐量測試-kafka 商業環境實戰
2018-10-28
Kafka
「Kafka應用」副本同步策略
2021-01-03
Kafka
一文讀懂Kafka副本機制
2020-06-02
Kafka
kafka叢集基於吞吐量指標進行效能調優實踐-kafka 商業環境實戰
2018-12-03
Kafka指標
Hadoop商業環境實戰-HDFS NameNode 當機後設資料一致保障及SNN機制深入研究
2019-03-01
Hadoop
kafka 副本機制和容錯處理 -2
2020-12-01
Kafka
HBase LRUBlockCache與BucketCache二級快取機制原理剖析與引數調優-OLAP商業環境實戰
2019-03-04
BloC快取
深入剖析setState同步非同步機制
2021-01-17
非同步
Apache Kafka 程式設計實戰
2019-03-24
ApacheKafka程式設計
訊息中介軟體高階技術要點企業級架構深入分析-kafka 商業環境實戰
2019-03-02
架構Kafka
Kubernetes網路解決方案技術原理深入剖析-Kubernetes商業環境實戰
2019-05-11
Fabric基於Kafka的共識機制剖析
2019-03-28
Kafka
kafka環境安裝及簡單使用(單機版)
2018-05-04
Kafka
kafka 三高架構設計剖析
2024-03-15
Kafka架構
Kylin官方案例詳細剖析及剪枝優化-OLAP商業環境實戰
2018-10-30
優化
Kafka消費與心跳機制
2020-09-28
Kafka
Kafka應用實戰——Kafka安裝及簡單使用
2018-08-06
Kafka
Kafka實戰(三) - Kafka的自我修養與定位
2020-01-23
Kafka
深入理解Kafka核心設計及原理（二）：生產者
2022-04-06
Kafka
深入理解Kafka核心設計及原理（四）：主題管理
2022-04-09
Kafka
深入理解Kafka核心設計及原理（三）：消費者
2022-04-07
Kafka
詳細解析kafka之kafka分割槽和副本
2021-09-09
Kafka
Kafka 入門（二）--資料日誌、副本機制和消費策略
2020-07-24
Kafka
工業級數倉分層及高併發鬆耦合大資料平臺架構深入剖析-DW商業環境實戰
2019-01-04
大資料架構