Flink 如何通過2PC實現Exactly-once語義（原始碼分析）

ljygz發表於2022-01-26

原文網址 : https://www.cnblogs.com/ljygz/p/15847847.html

原始碼

Flink通過全域性快照能保證內部處理的Exactly-once語義

但是端到端的Exactly-once還需要下游資料來源配合，常見的通過冪等或者二階段提交這兩種方式保證

這裡就來分析一下Sink二階段提交的Flink原始碼是如何實現的

本文原始碼基於Flink1.14

老版本的話看TwoPhaseCommitSinkFunction，現在用SinkWriter邏輯都是差不多的

先來看下我們的主角 org.apache.flink.streaming.runtime.operators.sink.SinkOperator 類

1階段. 在barrier到齊準備觸發checkpoint之前

呼叫了資料來源的預提交方法 prepareCommit

來看下已kafka為例具體做了什麼

kafkaWriter就是呼叫了生產者的flush方法，在已經開始的事務裡面刷資料

2階段. 觸發checkpoint儲存狀態資料的時候 snapshotState 方法

以kafka為例

會啟動下一個checkpoint的kafka事務，直接就begin事務了，接著

用這次checkpoint需要commit的kafkaCommiter更新了狀態, 會被儲存下來，這裡有事務資訊的後面會用到

3階段. 當checkpoint完成以後

已kafka為例，會直接提交事務了commit

這裡可能會有疑問，，如果我只預提交了，還沒有commit這時候跪了，那我從checkpoint恢復起來，那不就有問題了嗎

帶著疑問看下最後一個階段

4階段. 當任務失敗從checkpoint恢復的時候

初始化的時候會恢復狀態

可以看到會將上面說的上次checkpoint需要commiter的放到recoveredCommittables恢復佇列裡面

然後retrayWithDelay，就會根據我們儲存的kafka事務資訊id等去判斷，上一次事務的狀態，如果是預提交的話，就會先去commit了

總結一下流程：

prepareSnapshotPreBarrier快照觸發前, 預提交事務，kafka裡面就是flash

snapshotState快照儲存時，開啟一個新的事務kafka就是beginTransation，並且儲存這次要提交的事務資訊

notifyCheckpointComplete快照完成以後，呼叫對應的commit提交事務 , kafka就是commitTransation

initializeState從快照恢復，會先判斷上次事務的狀態如果還沒提交會先提交

Flink 是如何保證 Exactly-once 語義的？
2023-02-22
Flink Exactly-once 實現原理解析
2021-12-12
通過原始碼分析Mybatis的功能
2020-08-01
原始碼MyBatis
優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理？
2021-09-28
ApacheKafka事件
通過.net core原始碼看下Dictionary的實現
2019-01-16
原始碼
通過了解RejectedExecutionException來分析ThreadPoolExecutor原始碼
2019-02-18
Exceptionthread原始碼
通過激勵協作實現語義 Web 的弱中心化
2019-04-09
Web中心化
HashMap原始碼實現分析
2020-07-22
HashMap原始碼
通過GitHub Blame深入分析Redux原始碼
2019-02-23
GithubRedux原始碼
聊聊如何通過自定義註解實現springmvc和sentinel整合
2022-01-06
SpringMVC
Mybatis原始碼分析（七）自定義快取、分頁的實現
2019-03-10
MyBatis原始碼快取
spark 原始碼分析之十四 -- broadcast 是如何實現的？
2019-07-16
Spark原始碼AST
Apache Flink原始碼分析---JobManager啟動流程
2020-09-29
Apache原始碼
如果通過流資料實現實時分析？
2022-03-14
org.reflections 介面通過反射獲取實現類原始碼研究
2022-01-07
反射原始碼
Feign通過自定義註解實現路徑的轉義
2022-06-27
Mybatis原始碼分析（三）通過例項來看typeHandlers
2019-03-10
MyBatis原始碼
Flink接入Kafka資料來源實現精準一次（Exactly-once）的注意點
2023-02-24
Kafka
ConcurrentHashMap 實現原理和原始碼分析
2018-04-09
HashMap原始碼
HashMap實現原理及原始碼分析
2018-07-30
HashMap原始碼
HashMap 實現原理與原始碼分析
2019-04-26
HashMap原始碼
《Spring原始碼分析》IOC的實現
2020-12-22
Spring原始碼
自定義來電秀怎麼實現？Android 來電秀原始碼分析
2021-09-29
Android原始碼
7.原始碼分析---SOFARPC是如何實現故障剔除的？
2019-08-07
原始碼RPC
教你在Python中實現潛在語義分析
2018-12-07
Python
[Flink-原始碼分析]Blink SQL 回撤解密
2021-12-26
原始碼SQL解密
Flink 非對齊Unaligned的checkpoint（原始碼分析）
2022-01-12
原始碼
Flutter 通過Clipper實現各種自定義形狀
2019-12-03
Flutter
Flink - 元件通訊過程
2023-03-25
元件
musl中strlen原始碼實現和分析
2023-11-12
原始碼
從kratos分析BBR限流原始碼實現
2021-09-04
原始碼
Redis 中的 set 和 sorted set 如何使用，原始碼實現分析
2022-03-22
Redis原始碼
如何利用 Netty 實現自定義協議通訊？
2020-11-11
Netty協議
使用PHP實現詞法分析與自定義語言
2022-01-11
PHP詞法分析
通過佇列實現棧OR通過棧實現佇列
2018-08-19
佇列
WiFiAp探究實錄--功能實現與原始碼分析
2024-08-04
WiFi原始碼
[求指導] 如何通過程式碼分析一個查詢語句的執行效率
2020-06-12
iOS Jailbreak Principles - Undecimus 分析（三）通過 IOTrap 實現核心任意程式碼執行
2020-01-12
iOSAI

Flink 如何通過2PC實現Exactly-once語義 （原始碼分析）

相關文章

Flink 如何通過2PC實現Exactly-once語義（原始碼分析）