【Flink】基於 Flink 的流式資料實時去重

papering發表於2024-10-11

原文網址 : https://www.cnblogs.com/papering/p/18459065

State Backends | Apache Flink https://nightlies.apache.org/flink/flink-docs-release-1.20/zh/docs/dev/datastream/fault-tolerance/state_backends/

Flink 提供了多種 state backends，它用於指定狀態的儲存方式和位置。

狀態可以位於 Java 的堆或堆外記憶體。取決於你的 state backend，Flink 也可以自己管理應用程式的狀態。為了讓應用程式可以維護非常大的狀態，Flink 可以自己管理記憶體（如果有必要可以溢寫到磁碟）。預設情況下，所有 Flink Job 會使用 Flink 配置檔案 中指定的 state backend。

【Flink】基於 Flink 的流式資料實時去重-騰訊雲開發者社群-騰訊雲 https://cloud.tencent.com/developer/article/1707045

我們不能將狀態僅交由記憶體管理，因為記憶體的容量是有限制的，當狀態資料稍微大一些時，就會出現記憶體不夠的問題。由於 Flink 本身提供了有狀態的計算，並且封裝了一些底層的實現，比如狀態的高效儲存、Checkpoint 和 Savepoint 持久化備份機制、計算資源擴縮容等問題，所以我們只需要呼叫 Flink API，專注於業務邏輯即可。

2.狀態型別

Managed State 和 Raw State

Flink有兩種基本型別的狀態：託管狀態（Managed State）和原生狀態（Raw State）。從名稱中也能讀出兩者的區別：Managed State 是由 Flink 管理的，Flink 幫忙儲存、恢復和最佳化，Raw State 是開發者自己管理的，需要自己序列化。兩者對比如下：

	Managed State	Raw State
狀態管理方式	Flink Runtime 託管，自動儲存、自動恢復、自動伸縮	使用者自己管理
狀態資料結構	Flink提供的常用資料結構，如 ListState、MapState 等	位元組陣列：byte[]
使用場景	絕大多數 Flink 運算元	使用者自定義運算元

大部分情況下我們使用 Managed State 便可滿足需求。

幸福裡基於 Flink & Paimon 的流式數倉實踐
2023-09-20
AI
基於 Flink 的小米資料整合實踐
2023-02-16
基於 Flink CDC 打造企業級實時資料整合方案
2023-11-23
基於 Flink CDC 的實時同步系統
2023-03-17
基於 Flink CDC 的現代資料棧實踐
2023-04-18
Flink去重統計-基於自定義布隆過濾器
2021-05-20
過濾器
基於 Flink 的實時數倉生產實踐
2019-11-28
攜程基於Flink的實時特徵平臺
2019-04-26
特徵
位元組跳動流式資料整合基於Flink Checkpoint兩階段提交的實踐和優化
2022-03-21
優化
基於 Flink 的實時資料消費應用 / 功能質量保障方法
2020-06-12
錢大媽基於 Flink 的實時風控實踐
2022-06-21
GaussDB(DWS)基於Flink的實時數倉構建
2024-04-18
基於flink和drools的實時日誌處理
2020-06-27
汽車之家基於 Apache Flink 的跨資料庫實時物化檢視探索
2021-12-03
Apache資料庫
基於Apache Hudi + Flink的億級資料入湖實踐
2022-01-09
Apache
使用 Flink Hudi 構建流式資料湖平臺
2022-02-23
Airwallex 基於 Flink 打造實時風控系統
2023-03-30
AI
實時資料處理：Kafka 和 Flink
2024-03-18
Kafka
快手基於 Apache Flink 的實時數倉建設實踐
2023-04-07
Apache
基於 Flink SQL 和 Paimon 構建流式湖倉新方案
2023-11-23
SQLAI
流式處理新秀Flink原理與實踐
2018-03-16
基於Flink構建全場景實時數倉
2023-12-14
基於 Flink 流計算實現的股票交易實時資產應用
2023-03-16
基於flink的電商使用者行為資料分析【3】| 實時流量統計
2020-11-27
基於 Hologres+Flink 的曹操出行實時數倉建設
2024-01-17
基於Hologres+Flink的曹操出行實時數倉建設
2024-01-10
網易雲音樂基於Flink實時數倉實踐
2020-10-24
美團點評基於 Flink 的實時數倉建設實踐
2019-07-08
基於Flink和規則引擎的實時風控解決方案
2019-10-23
flink使用Event_time處理實時資料
2019-02-28
4.Flink實時專案之資料拆分
2022-02-14
快手基於 Flink 構建實時數倉場景化實踐
2021-08-25
Flink基於Kafka-Connector 資料流容錯回放機制及程式碼案例實戰-Flink牛刀小試
2018-11-26
Kafka
基於flink的電商使用者行為資料分析【2】| 實時熱門商品統計
2020-11-24
B站基於Flink的海量使用者行為實時ETL實踐
2023-04-06
[Flink/CDC/資料整合] 資料增量整合方案：Flink CDC
2024-10-18
基於 Apache Flink 的實時計算資料流業務引擎在京東零售的實踐和落地
2023-03-17
Apache
伴魚基於 Flink 構建資料整合平臺的設計與實現
2021-12-10

【Flink】基於 Flink 的流式資料實時去重

2.狀態型別

Managed State 和 Raw State

相關文章