Docker映象、Spark支援多表...Apache SeaTunnel 2.3.8版本將帶來的驚喜

ApacheSeaTunnel發表於2024-09-27

file

Apache SeaTunnel 2.3.8版本即將於大家見面,近日,Apache SeaTunnel PMC Member 範佳在社群的交流會上為大家提前透露了關於這個新版本即將進行的功能與特性更新概況,詳細內容如下:

SeaTunnel 簡介

SeaTunnel是一個高效能的開源分散式資料整合系統,支援各種資料來源的實時流式和離線批處理,適用於海量資料的整合。它具有以下特點:

  • 海量聯結器:支援100+種資料來源和儲存系統。
  • 多引擎支援:相容多種資料處理引擎,包括SeaTunnel Zeta Engine、Spark和Flink。
  • HTTP支援:可以透過HTTP介面進行資料整合。
  • 流批一體:同時支援流處理和批處理。
  • 流速控制:能夠控制資料流的速率。
  • 自動建表功能:自動根據資料結構建立表。

2.3.8 版本新功能與特性

在即將釋出的2.3.8版本中,社群將對SeaTunnel進行以下功能和特性的更新:

Docker 映象

新版本將提供官方版本的 Docker 映象,將包含幾乎所有的 Connector,使用者無需下載安裝包,透過直接透過拉取映象,可以更快地執行 SeaTunnel,減輕 SeaTunnel 部署的複雜度。

file

  • 透過命令構建映象:對於本地部署,並且有定製化需求的使用者,可以透過命令列構建映象;

file

  • 透過命令啟動服務:支援透過命令啟動服務進行分散式部署,以及提交任務和查詢任務狀態等;當然。也可以透過 rest-API 提交任務。

file

  • 透過命令提交服務

file

Spark 支援多表

目前,SeaTunnel 僅支援 Zeta Engine 對多表的支援,新版本將增加 Spark 引擎對多表的支援,可以自動識別並自動執行多表任務。

file

另外,Flink 對於多表的支援已經在推進之中,感興趣的朋友歡迎來 GitHub 參與共建。

Config 引數支援預設值

目前,SeaTunnel 允許在 config 引數進行變數配置,但每個變數需要手動配置。新版本則將允許在配置引數中使用預設值,提高了配置的靈活性。

file
file

適配 Prometheus 進行叢集監控

此前,SeaTunnel 提供了介面來獲取任務執行的指標,新版本將支援適配 Prometheus 進行叢集監控。Prometheus 將定期拉取 SeaTunnel 的叢集任務狀態,並以視覺化介面展示出來,以更便利地監控叢集的狀態,及時發現問題。

file

file
Dashboard展示

新增 Embedding transform

透過 Embedding transform,支援將機器學習模型嵌入到資料轉換過程中,把原始欄位轉換成向量值,再儲存到相應的機器學習資料庫。目前,SeaTunnel 支援的機器學習模型提供商包括豆包、千帆、OpenAI。

file
file

Job 級別日誌過濾檢視

增加了Job級別的日誌過濾和檢視功能,可以透過三種方式實現日誌過濾。

第一種是透過把 Job ID 列印到日誌的最前面,使用者可以透過搜尋 Job ID 來找到屬於此 Job 的所有日誌,這樣可以把日誌過濾出來,解決當多工併發時,一旦其中一項任務出錯,透過日誌來排查問題相對比較困難的難題。

file

第二種是根據 Job ID 拆分檔案,透過修改 log 配置檔案,很多檔案都是配置好的,只需要簡單修改,任務就會在每一個 Job 打一個日誌檔案。相同的 Job ID 會被歸類到同一個檔案下,這樣就方便大家查詢日誌檔案。

file

修改log4j2.properties配置檔案示例:

...
rootLogger.appenderRef.file.ref = routingAppender
...

appender.file.layout.pattern = %d{yyyy-MM-dd HH:mm:ss,SSS} %-5p [%-30.30c{1.}] [%t] - %m%n
...

Kafka 支援讀取/寫入 Protobuf 型別資料

增強了 Kafka 聯結器對 Protobuf 資料格式的支援,在 Kafka 聯結器下增加對 Protobuf 資料型別的定義,進行資料讀取和寫入。

file

檔案支援讀取壓縮包

增加了對壓縮檔案格式的讀取支援,省去了解壓縮的步驟。

file

其他功能

此外,新版本還將移除對系統表的過濾,允許使用者讀取系統表;增強對Paimon流式讀取和動態桶寫入的支援。

如何獲取最新版本和參與貢獻

下載

SeaTunnel 2.3.8 版本預計將於 10 月初發布,屆時可關注 SeaTunnel 官網下載頁面 獲取最新版本的SeaTunnel。

參與貢獻

  • 郵件列表
    透過傳送郵件到 dev-subscribe@seatunnel.apache.org 訂閱SeaTunnel開發郵件列表,參與社群討論和發版投票。

  • GitHub
    訪問 Apache SeaTunnel GitHub 倉庫 追蹤社群最新動態,提交bug報告和功能請求。

結語

SeaTunnel 2.3.8 版本的釋出將帶來一系列新功能和改進,使得資料整合更加高效和靈活。感謝所有貢獻者的努力,讓 SeaTunnel 成為一個更加強大的資料整合工具。

更多資訊請訪問 SeaTunnel 官網

本文由 白鯨開源 提供釋出支援!

相關文章