Apache SeaTunnel技術架構演進及其在AI領域的應用

ApacheSeaTunnel發表於2024-08-27

file

隨著資料整合需求的增長，Apache SeaTunnel作為新一代的資料同步引擎，不僅在技術架構上不斷演進，也在AI領域展現出其獨特的應用價值。在CommunityOverCode Asia 2024大會上，Apache SeaTunnel PMC Chair 高俊 深入探討SeaTunnel的技術演進路徑，分析其在AI領域的應用案例，並展望未來的發展規劃。

https://www.bilibili.com/video/BV1NCs5eMEA8/?vd_source=e139ecc995ab936267a7991b9de55f6c

從0構建一個資料整合系統

構建資料整合系統的初衷，是因為我們面臨著多種資料來源到目標資料庫的同步問題，如MySQL到MySQL、PostgreSQL到Oracle等。由於資料來源眾多，促使我們設計了靈活的源聯結器和目標聯結器。

Source聯結器&Sink聯結器

SeaTunnel的設計，是在資料來源和目標端之間進行抽象，透過SPI的方式進行外掛化載入，將資料從源端寫到目標端。

file

表結構同步

如果目標端沒有源端的表結構，則需要構建一個CatalogTable介面，來讀取源端表結構的構造，得到一個類似於MySQL的表格，再轉化為目標端對應的表結構。這樣，在不同的資料流轉之前，先把表結構進行流轉，透過簡單的程式碼就可以實現高效的資料佇列和表結構同步機制。

file

並行化挑戰

file

在設計SeaTunnel時，我們特別關注了並行化處理的多個方面，包括任務的建立、執行位置、啟動與關閉、資料分片以及任務與作業間的狀態流管理。SeaTunnel把單執行緒變為多執行緒處理任務，列舉器透過不同演算法把成千上完的資料拆分成例項，送到Source Reader中，每個Reader負責執行一個SQL查詢，從而進行資料的並行讀取。

SeaTunnel引擎

這麼多的任務示例，它們何時開始、何時結束、執行時長，執行的順序是什麼？這就需要一個引擎來規劃例項的執行計劃。這就是SeaTunnel引擎發揮作用的地方，它的核心是提供一個統一的資料同步與整合解決方案，支援多種資料來源和目標，並能夠處理大規模資料流。

file

Apache SeaTunnel誕生

可以看到，之所以出現越來越多的複雜的資料整合引擎，是出於各種需求而不斷演進。在這樣的背景下，Apache SeaTunnel應運而生。

設計目標

SeaTunnel的設計目標：

簡單易用：透過簡單的配置和命令即可建立同步任務和執行同步任務；
同步過程可監控、指標可量化：同步過程中自動統計任務讀取寫入的資料量，效能指標，資料延時等資訊
豐富的資料來源生態：支援國內外資料庫、訊息佇列、雲端儲存、雲元件、資料湖、倉、SaaS服務、支援使用者自定義資料來源
全場景支援：支援所有資料整合場景，包括離線、實時、全量、增量、CDC、CDC整庫同步、DDL變更、動態加表
資料一致性保障：資料不丟失、不重複、精確處理一次、支援斷點續傳
資源使用少：包括記憶體最佳化、CPU執行緒最佳化、多表同步資料庫連線共享

file

架構概覽

SeaTunnel的架構由目標資料庫、源資料庫，以及資料同步與整合元件構成。中間部分的抽象API包括Table API、Source API、Sink API、Engine API、Catalog API、Type Converter API等一系列API組成，基於這一系列API實現的聯結器可以執行在多種引擎上，包括原生支援的SeaTunnel Zeta引擎，這是目前我們經過測試數最快的資料同步引擎。同時，SeaTunnel支援透過翻譯層將API開發的聯結器翻譯成Spark和FlinkConnector，從而支援執行在Spark和Flink引擎上。

file