4個角度輕鬆理解 Flink中的Watermark

yscoder發表於2020-11-14

當我們第一次接觸 Flink 時往往會對其中的 watermark 感到困惑。但實際上 watermark 並不複雜。在本文中我們將通過一個簡單的例子來說明為什麼需要水印以及它們如何工作。

在下文中的例子中，我們有一個帶有時間戳的事件流，但是由於某種原因流中的事件並不是按順序到達的。圖中的數字代表事件發生的時間戳（Event-time）。第一個事件在時間4達到，它後面跟著的是發生在更早時間（時間 2）的事件，以此類推：

注意這是一個按照事件時間（Event-time）處理的例子，上面所述的時間戳所表示的是事件真實發生時間，而非事件處理的時間(Processing-Time) 。事件時間（Event-Time）處理的強大之處在於，無論是在處理當前的資料還是重新處理歷史（資料重放）的資料，基於事件時間建立的流計算應用都可以保證最終執行結果是一致的。

假設我們現在正在嘗試建立一個流計算排序運算元。即將一個亂序到達的事件流按照事件時間進行順序輸出。資料流中的第一個元素的事件時間是 4，但是我們不能直接將它作為排序後資料流的第一個元素進行輸出。因為資料是亂序到達的，也許有一個更早發生的資料還沒有到達。實際上，我們在上面的例子中可以提前預知到這個流中元素2 的事件事件比4更早，我們的排序運算元至少要等到 2 這條資料的到達後再做輸出。

有快取就必然有延遲

資料流中的第一個元素的事件時間是 4，但是我們不能直接將它作為排序後資料流的第一個元素進行輸出。因為資料是亂序到達的，也許有一個更早發生的資料還沒有到達。實際上，我們在上面的例子中可以提前預知到這個流中元素2 的事件事件比4更早，我們的排序運算元至少要等到 2 這條資料的到達後再做輸出。

必須勇敢地輸出排序流的第一個結果

如果我們假設事件2已經達到，而且我們相信2之前還有更早的事件需要等待，在上面例子中的資料流中，實際上已經沒有比2更早的事件了，我們可能會永遠等待下去。總之，我們的應用程式不能保證一定有更早的資料還未到達，所以不能無條件的等下去。

watermark 定義了何時不再等待更早的資料

我們需要某種策略用於定義了對於任何帶事件事件的資料流，何時停止等待更早資料的到來。

Flink 中的事件時間處理依賴於一種特殊的帶時間戳的元素，稱為 watermark，它們會由資料來源或是 watermark 生成器插入資料流中。具有時間戳 t 的 watermark 可以被理解為斷言了所有時間戳小於或等於 t 的事件都（在某種合理的概率上）已經到達了。

何時我們的排序運算元應該停止等待，然後將事件 2 作為首個元素輸出？答案是當收到時間戳為 2（或更大）的 watermark 時。

設想不同的策略來生成 watermark

我們知道每個事件都可能會延遲一段時間才到達且這些延遲差異會比較大，有些事件會比其他事件延遲更多。一種簡單的方法是假設這些延遲不會超過某個最大值。Flink 把這種策略稱作 "有界無序生成策略"（bounded-out-of-orderness）。當然也有很多更復雜的方式去生成 watermark，但是對於大多數常規應用來說，固定延遲方式已經足夠了。

往期精選▼

Flink中Checkpoint和Savepoint 的 3 個不同點

Flink實現固定時長或訊息條數的觸發器

使用 Broadcast State 的 4 個注意事項

3種Flink State Backend | 你該用哪個？

100%會被問到的兩道Flink面試題，你會了麼?

識別二維碼, 關注我們

Flink Time和Watermark的理解
2019-02-14
flink 中的水位線(Watermark)
2024-03-08
Flink - Watermark
2023-01-12
兩個案例輕鬆理解MyBatis中的TypeHandler！
2019-04-06
MyBatis
輕鬆理解 Transformers (4) ：Decoder 和 Output 部分
2023-11-13
ORM
flink watermark傳遞原理
2024-06-21
輕鬆理解 Spring AOP
2021-04-14
Spring
輕鬆理解JVM的分代模型
2020-10-10
JVM模型
flink的watermark機制你學會了嗎？
2021-08-31
看動畫輕鬆理解「堆」
2018-12-20
動畫
輕鬆理解 Transformers（2）：Attention部分
2023-10-30
ORM
輕鬆理解分庫分表
2021-05-17
輕鬆理解HTTP快取策略
2020-12-21
HTTP快取
看圖輕鬆理解最小(大)堆
2018-12-10
看圖輕鬆理解計數排序
2019-03-04
排序
netty系列之:輕輕鬆鬆搭個支援中文的伺服器
2021-08-30
Netty伺服器
MySql輕鬆入門系列————第一站從原始碼角度輕鬆認識mysql整體
2021-09-09
MySql原始碼
幾張圖輕鬆理解String.intern()
2020-12-17
換個角度，重新理解架構
2022-07-29
架構
深入理解Flink中的狀態
2019-01-10
輕鬆搞懂Java中的自旋鎖
2019-05-06
Java
MySql輕鬆入門系列——第一站從原始碼角度輕鬆認識mysql整體框架圖
2020-06-02
MySql原始碼框架
5分鐘搞懂Kubernetes：輕鬆理解所有元件
2023-12-13
元件
輕鬆理解 Transformers (3): Feed-Forward Layer 部分
2023-11-06
ORMForward
輕鬆理解建構函式和原型物件
2019-08-18
函式原型物件
【動畫】看動畫輕鬆理解「Trie樹」
2019-01-02
動畫
輕鬆理解 Java 靜態代理/動態代理
2021-04-12
Java
Downie 4：輕鬆下載，暢享影片
2023-09-21
職場必備！學會這4個技巧，便可輕鬆操作Excel！
2018-10-31
Excel
Java 輕鬆理解深拷貝與淺拷貝
2021-04-27
Java
自媒體人必備的4個素材網站，助你輕鬆打造爆款
2022-02-14
網站
從原始碼角度深入理解Glide4（上）
2019-02-19
原始碼IDE
從原始碼角度深入理解Glide4（下）
2019-02-19
原始碼IDE
Flink Window分析及Watermark解決亂序資料機制深入剖析-Flink牛刀小試
2019-03-04
substrate輕鬆學系列4：substrate快速瞭解
2022-07-04
一張圖輕鬆掌握 Flink on YARN 應用啟動全流程（上）
2019-09-25
Yarn
輕鬆理解UML用例圖時序圖類圖的教程
2018-09-15
時序圖
看動畫輕鬆理解時間複雜度（一）
2018-12-13
動畫時間複雜度

4個角度輕鬆理解 Flink中的Watermark

有快取就必然有延遲

必須勇敢地輸出排序流的第一個結果

watermark 定義了何時不再等待更早的資料

設想不同的策略來生成 watermark

相關文章