Apache SeaTunnel資料處理引擎適配的演進和規劃

ApacheSeaTunnel發表於2024-08-21

原文網址 : https://www.cnblogs.com/seatunnel/p/18371816

file

作者 | Chao Tian (tyrantlucifer)，Apache SeaTunnel PMC Member

摘要

Apache SeaTunnel作為一個高效能資料同步工具，以其高效的資料處理能力，為資料整合領域帶來了創新。在引擎上，Apache SeaTunnel除了支援自身的Zeta引擎外，還支援Spark和Flink。在2024年的CommunityOverCode Asia，Apache SeaTunnel PMC Member 田超在論壇上為大家介紹了Apache SeaTunnel基於Flink的演進歷程、架構設計、核心特性，以及社群的當前進展和未來規劃。以下為演講核心內容整理：

Apache SeaTunnel基於Flink的演進歷程

Apache SeaTunnel的演進主要體現在兩個API版本上：

Flink API V1：SeaTunnel的初始API版本，與Flink的計算引擎緊密耦合，connector緊密依賴Flink介面。

file

Flink API V2：SeaTunnel的新一代API，所有的外掛還是繼承了plug-in的形式，但實現了與計算引擎的解耦；支援更多Flink版本；不依賴於Flink原生聯結器，Sink增加了Writer、Committer和Aggregated Committer，Source增加了Reader、Split和Split Enumerator；降低了Flink升級的成本；並提供了更細粒度的介面，增強了系統的可擴充套件性，滿足更多元化的資料來源的同步需求。

file

基於Flink的架構設計

從Job執行的角度，Apache SeaTunnel的架構設計緊密依託於Flink的資料處理能力。

在Common API層，SeaTunnel做了外掛的抽象化，基於外掛的抽象化，SeaTunnel可以對接不同的計算引擎。

file

對接層在SeaTunnel中統稱翻譯層（Translation Layer）。針對Flink，SeaTunnel實現了Flink代理的Source、Sink和Transform，生成Flink引擎的Job graph後，以實現資料在Flink上高效轉換和同步。

file

基於Flink好用的核心特性

市面上的資料同步工具很多，比如Apache Flink CDC、Chunjun等。

file

相比之下，Apache SeaTunnel展現了以下特點：

支援的Flink版本：SeaTunnel支援1.13及以上版本，提供更廣泛的相容性。
Flink聯結器：SeaTunnel不依賴於Flink原生聯結器，提供了更高的靈活性。
使用者自定義指標：SeaTunnel允許使用者定義自己的指標，增強了監控和分析能力。
資料轉換支援：SeaTunnel支援資料的轉換操作，包括但不限於對映、過濾等。
Flink-SQL：儘管目前SeaTunnel不支援Flink-SQL，但這是社群未來工作的重點之一。

Apache SeaTunnel基於Flink的特性和好用的功能，我們也來總結一下：

支援Flink原生的poll-push架構，可以實現實時獲取分片資料，有效解決多並行度下的問題，最大化利用資源
支援 Flink原生的兩階段提交功能
支援Flink原生的使用者自定義指標能力
支援使用Flink原生的global-accumulator記錄資料同步作業詳情
支援所有Flink作業提交模式（應用模式/會話模式）
支援列舉器和讀取器之間使用者定義的事件通訊
支援Flink 1.13–1.18之間的所有版本

社群進展與未來規劃

目前，Apache SeaTunnel社群正在積極推進以下工作：

多表讀寫支援：正在開發在Flink引擎上支援多表同時讀寫的功能，以支援一庫多表讀寫，多表路由等場景，提高資料處理的效率和靈活性。目前，這一功能已在SeaTunnel Zeta引擎上實現。

file

Flink Proxy Source & Sink重構：當前，Flink Proxy資料的同步需要在Flink proxy Row和SeaTunnel Row資料格式之間進行多次轉換，這樣的轉換不但會有資料精度損失的風險，還極大地降低了資料轉化的效能。為此，社群正在進行源和接收器的重構工作，以最佳化效能和穩定性。

file

未來，社群還計劃實現以下特性：

模式演化（Schema Evolution）：目前，SeaTunnel僅在Spark和Zeta引擎上支援模式演化功能，未來，社群計劃在Flink上支援資料模式的動態變化，以適應不斷變化的資料需求。

file

SQL轉換支援：計劃在Flink上支援SQL轉換，包括選擇投影、使用者定義函式（UDF）、使用者定義表函式（UDTF）和過濾條件等，以提供更豐富的資料處理能力。

file

結語

Apache SeaTunnel作為資料同步領域的一個創新工具，其基於Flink的高效資料處理能力，為資料整合帶來了新的解決方案。社群的不斷努力和創新，將使Apache SeaTunnel在未來的資料同步任務中發揮更大的作用。如需進一步瞭解或參與Apache SeaTunnel專案，歡迎加入社群參與討論。

本文由白鯨開源提供釋出支援！

Apache SeaTunnel技術架構演進及其在AI領域的應用
2024-08-27
Apache架構AI
Apache SeaTunnel Committer 進階指南
2024-09-13
ApacheMIT
使用Apache SeaTunnel高效整合和管理SftpFile資料來源
2024-09-19
ApacheFTP
小菜前端的技術棧是如何規劃和演進的
2019-03-26
前端
高效處理日均5000億+資料：58集團基於Apache SeaTunnel的資料整合平臺架構最佳化
2024-11-18
Apache架構
Apache Beam，批處理和流式處理的融合！
2020-12-02
Apache
11月 | Apache SeaTunnel月度進展總結
2024-12-05
Apache
Callback Promise Generator Async-Await 和異常處理的演進
2019-03-04
PromiseAI
資料的規範化——Pandas處理
2024-04-07
適配金融業的應用監控標準化演進之路
2023-02-22
應用適配資料庫還是資料庫適配應用
2024-01-09
資料庫
Apache SeaTunnel k8s 叢集模式 Zeta 引擎部署指南
2024-04-30
ApacheK8S模式
VTS：基於Apache SeaTunnel的開源向量資料遷移工具
2024-11-26
Apache
簡化資料流：Apache SeaTunnel實現多表同步的高效指南
2024-07-23
Apache
資料的集合處理，有哪些規則？
2018-10-30
資料清洗和資料處理
2020-03-03
Apache Wayang ：跨平臺資料處理系統
2022-03-18
Apache
三種大資料流處理框架選擇比較：Apache Kafka流、Apache Spark流和Apache Flink - quora
2020-12-08
大資料框架ApacheKafkaSpark
使用Apache Flink和Apache Ignit進行資料流分析
2018-10-14
Apache
陳胡：Apache SeaTunnel實現非CDC資料抽取實踐
2022-05-19
Apache
Android螢幕適配（理論適配100%機型）
2021-09-25
Android
日均處理萬億資料！Flink在快手的應用實踐與技術演進之路
2019-09-06
Presto適配高斯資料庫
2024-03-06
REST資料庫
推特大規模應用的流處理框架：Apache Heron
2021-07-14
框架Apache
企業如何遵守資料安全法規進行SAP資料脫敏處理？
2024-01-29
2.3.6版本釋出！Apache SeaTunnel Zeta引擎迎來新架構！
2024-08-07
Apache架構
博文推薦｜使用 Apache Pulsar 和 Scala 進行事件流處理
2022-03-30
Apache事件
Apache Kyuubi & SeaTunnel 聯合 Meetup | 見證中國大資料崛起！
2022-03-02
Apache大資料
使用流式計算引擎 eKuiper 處理 Protocol Buffers 資料
2022-08-18
UIProtocol
SeaTunnel用於海量資料的同步和轉換
2022-01-13
Serverless 在大規模資料處理的實踐
2020-06-08
Server
Apache SeaTunnel 社群 3 月月報
2024-04-11
Apache
Apache Ignite 學習筆記(五): Primary和backup資料同步模式和處理分片丟失的策略
2019-06-13
Apache筆記模式
如何對大資料進行分析和處理？_光點科技
2023-02-01
大資料
EMQX Cloud 更新：更易用的規則引擎，三步輕鬆實現資料處理轉存
2022-04-08
MQCloud
Flink流處理的演變
2020-11-02
資料標準規劃有哪些規劃
2022-11-21
你要的高效方案！基於Apache SeaTunnel快速整合SAP進入Redshift
2024-07-16
Apache

Apache SeaTunnel資料處理引擎適配的演進和規劃

摘要

Apache SeaTunnel基於Flink的演進歷程

基於Flink的架構設計

基於Flink好用的核心特性

社群進展與未來規劃

結語

相關文章