Apache SeaTunnel 2.3.7釋出:全新支援大型語言模型資料轉換

ApacheSeaTunnel發表於2024-09-02

file

我們欣喜地宣佈,Apache SeaTunnel 2.3.7 版本現已正式釋出!作為一個廣受歡迎的下一代開源資料整合工具,Apache SeaTunnel 一直致力於為使用者提供更加靈活、高效的資料同步和整合能力。此次版本更新不僅引入瞭如 LLM(大型語言模型)資料轉換支援、增強的 SQL 支援和新聯結器支援等多個新特性,還對現有功能進行了最佳化和改進,並修復了多個發現的問題。本文將詳細介紹 Apache SeaTunnel 2.3.7 版本中的關鍵更新內容,並邀請更多的開發者和使用者參與到我們的開源社群中來。

  • 2.3.7版本下載:https://seatunnel.apache.org/download/
  • Release Note:https://github.com/apache/seatunnel/releases/tag/2.3.7

新增功能亮點

  1. LLM 資料轉換支援:2.3.7 新版本中增加了對 LLM(大語言模型)資料轉換的支援。這一特性將顯著提升 Apache SeaTunnel 在處理複雜文字資料和自然語言處理任務中的應用能力,為前沿資料處理領域的使用者提供了更大的便利。
    值得一提的是,我們在 2.3.6 版本新增了向量型別支援向量資料庫寫入,可加速人工智慧應用程式的開發,並簡化由 AI 驅動的應用程式工作負載的運作,已成為大模型時代的得力助手。為更好地支援 AI 開發,Apache SeaTunnel 2.3.6 版本新增了對向量資料庫 Milvus的支援。這是 Apache SeaTunnel 支援的首個向量資料庫,後續將擴充套件對其他向量資料庫的支援,具體可參考《2.3.6版本釋出!Apache SeaTunnel Zeta引擎迎來新架構!》。

  2. 增強的 SQL 支援:此次版本為 SQL 增加了 CAST TO BYTES 功能,使資料型別轉換更加靈活,使用者在處理不同資料格式時,將擁有更多的選擇,提升了資料處理的靈活性和可操作性。

  3. 阿里雲 SLS 聯結器支援: 此次更新新增了阿里雲 SLS(阿里雲日誌服務)聯結器。透過此功能,使用者可以將資料直接匯入到阿里雲日誌服務中,利用其強大的日誌管理和分析能力。這一特性特別適用於需要實時日誌監控和分析的使用者場景。

  4. ActiveMQ Sink 聯結器支援:支援 ActiveMQ 作為 Sink,進一步擴充套件了 SeaTunnel 的訊息佇列整合能力。ActiveMQ 是一個高效能的訊息代理系統,此次新增的支援使得 Apache SeaTunnel 使用者能夠更方便地與 ActiveMQ 進行資料交換,尤其適合於資料流處理和實時資料分析的場景。

改進和最佳化

在功能最佳化方面,Apache SeaTunnel 2.3.7 同樣帶來了諸多改進,旨在提升系統的效能和穩定性。

  • Flink API 方法命名最佳化:改進了 Flink API 的方法命名規範,使得程式碼更加易讀、易理解。這項最佳化不僅提升了開發體驗,也減少了開發人員在使用 Flink 時可能遇到的困惑。

  • 增強的 API 合法性檢查:新版增加了對 API 輸入引數的合法性檢查,確保了使用者輸入的配置和引數符合預期要求。這一改進減少了因配置錯誤導致的執行時異常,提升了系統的整體穩定性。

  • 多表 Sink 配置最佳化:對於需要處理多表輸出的場景,2.3.7 進一步最佳化了 Sink 選項配置,使得使用者在配置多表輸出時更加便捷和高效。

  • OceanBase 支援最佳化:修復了 OceanBase 相關的相容性問題,提升了 Apache SeaTunnel 在處理 OceanBase 資料庫時的效能和穩定性。

關鍵問題修復

本次版本更新修復了多個關鍵問題,顯著提升了系統的穩定性和使用者體驗。

  • MySQL-CDC 聯結器修復:修復了在特定情況下,MySQL-CDC 聯結器無法正常同步資料的問題。這個修復確保了使用 MySQL 資料來源的使用者能夠更加可靠地進行資料同步操作。

  • Doris 聯結器修復:解決了 Doris 聯結器的一些關鍵性問題,增強了 Apache SeaTunnel 與 Doris 資料庫的相容性和效能,為使用 Doris 作為資料儲存的使用者提供了更好的支援。

  • Zeta 引擎任務停止問題修復:此次更新解決了 Zeta 引擎在某些情況下無法正常停止任務的 bug。這一改進防止了資源洩漏問題的發生,提高了系統的整體穩定性。

文件和社群貢獻

我們深知,優秀的文件是使用者成功使用 Apache SeaTunnel 的關鍵。在 2.3.7 版本中,我們對多個模組的文件進行了更新和修正,確保使用者能夠獲得最準確和易懂的使用指南。

  • 文件更新和修正:此次版本更新對多個文件進行了修正,特別是 Oracle-CDC 等模組的使用文件。我們不僅修復了之前版本中存在的錯誤描述,還增加了更多的使用案例和操作指南,幫助使用者更好地理解和使用 SeaTunnel。

  • 感謝社群貢獻者:此次版本更新離不開社群的支援和貢獻。我們特別感謝所有為 SeaTunnel 2.3.7 版本提交程式碼、報告問題和提出建議的貢獻者。正是因為你們的無私奉獻,Apache SeaTunnel 才能不斷進步和成長。

本次具體更新如下:

新功能

Transforms-V2

  • [Feature] 拆分變換並將 JAR 移動到 connectors 目錄 (#7218)
  • [Feature][LLM] 新增 LLM 變換 (#7303)
  • [Feature][SQL] 支援 SQL 的 cast to bytes 函式 (#7284)

Connector-V2

  • [Feature][Aliyun SLS] 新增阿里雲 SLS 聯結器 (#3733) (#7348)
  • [Feature][Activemq] 新增 ActiveMQ 聯結器 (#7251)

功能改進

Core

  • [Improve][Flink] 最佳化方法名稱 (#7372)
  • [Improve][API] 在傳送到下游之前檢查 catalog 表欄位名的合法性 (#7358)
  • [Improve][Flink] 重構 Flink 代理源/匯 (#7355)
  • [Improve][API] 確保 TablePath 中的表名不為 null (#7252)
  • [Improve][Core] 基於外掛名稱改進查詢策略 (#7278)

Connector-V2

  • [Improve][multi-table] 增加多表匯的選項檢查 (#7360)
  • [Improve][Console] 更新 ConsoleSinkFactory.java (#7350)
  • [Improve][Jdbc] 自動建立表時跳過所有索引以提高寫入效能 (#7288)
  • [Improve][Doris] 改進 Doris 錯誤資訊 (#7343)
  • [Improve][Jdbc] 刪除 JdbcDialect 中的 MysqlType 引用 (#7333)
  • [Improve][Jdbc] 建立表時合併使用者配置的主鍵 (#7313)
  • [Improve][Jdbc] 最佳化檢查資料庫和表是否存在的方式 (#7261)

Transforms-V2

  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7319)
  • [Improve][SQL] 從輸出欄位中移除轉義識別符號 (#7297)
  • [Improve][DynamicCompile] 改進 DynamicCompile 變換 (#7264)

E2E

  • [Improve][Improve] 啟用 Spark/Flink 的 fakesource E2E 測試 (#7325)
  • [Improve][Improve] 啟用 JdbcPostgresIdentifierIT (#7326)
  • [Improve][Improve] 支援 Windows 上的 Paimon E2E 測試 (#7329)

Bug 修復

Connector-V2

  • [Hotfix][MySQL-CDC] 修復 MySQL binlog 讀取時的 ArrayIndexOutOfBoundsException 異常 (#7381)
  • [Fix][Doris] 修復 Doris 主鍵順序與欄位順序不一致的問題 (#7377)
  • [Bugfix][Doris] 修復 JSON 序列化時,空值導致的資料錯誤問題 (#7379)
  • [Hotfix][Jdbc] 修復 JDBC 編譯錯誤 (#7359)
  • [Fix][OceanBase] 移除 OceanBase catalog 對 MySQL 驅動的依賴 (#7311)
  • [Fix][Tdengine] 修復連線 Taos 讀取資料時的 SQL 異常和 ConcurrentModifyException 異常 (#6088)
  • [Hotfix][Kafka] 修復 Kafka 消費者日誌的下次啟動偏移量問題 (#7312)
  • [Fix][Doris] 修復 CDC 場景下刪除資料的異常問題 (#7315)
  • [Hotfix][Hbase] 修復和最佳化 HBase 源問題 (#7148)
  • [Fix][Iceberg] 修復無法為識別符號 'Iceberg' 建立源的問題 (#7182) (#7279)

Zeta(ST-Engine)

  • [Fix][Zeta] 修復由於鎖定指標失敗導致任務無法結束的問題 (#7357)
  • [Hotfix][Zeta] 修復系統繁忙時任務無法停止的問題 (#7292)
  • [Hotfix][Zeta] 修復系統繁忙時任務無法停止的問題 (#7280)

E2E

  • [Fix][Http] 修復 HTTP E2E 測試用例 (#7356)

文件

  • [Docs] 在 setup.md 中更改棄用的聯結器名稱 (#7366)
  • [Docs] 修復 SFTP 匯文件中的使用者名稱引數錯誤 (#7334)
  • [Docs] 修復選擇 OSS 作為檢查點時的配置問題 (#7332)
  • [Docs] 修復 sidebars 中缺失的 sink-options-placeholders.md (#7310)
  • [Docs] 更新 Oracle-CDC.md (#7285)
  • [Docs] 修復混合叢集部署文件顯示錯誤 (#7306)
  • [Docs] 將事件監聽器文件翻譯成中文 (#7274)

其他

  • 更新 org.apache.activemq:activemq-client (#7323)
  • [Improve] 移除未使用的程式碼 (#7324)
  • [Improve] 更新快照版本至 2.3.7 (#7305)

貢獻者名單

特別感謝 wuchunfu 的主持發版工作,感謝下列社群成員對本次發版工作的貢獻:

Carl-Zhou-CN
Hisoka-X
Jarvis
OswinWu
TyrantLucifer
XenosK
alextinng
asapekia
chaos-cn
corgy-w
dailai
dependabot[bot]
gdliu3
hailin0
hawk9821
jackyyyyyssss
liugddx
luzongzhu
q3356564
virvle
whhe
wuchunfu
xxsc0529
zhangshenghang

總結

Apache SeaTunnel 2.3.7 的釋出,是我們持續提升產品效能和使用者體驗的重要一步。透過新增功能、最佳化現有功能以及修復已知問題,我們希望為使用者提供更好的資料整合和處理體驗。同時,我們也期待有更多的使用者和開發者加入到 SeaTunnel 社群中來,共同推動這個開源專案的發展。

歡迎下載 SeaTunnel 2.3.7 版本,體驗最新功能和改進。如果您在使用過程中有任何問題或建議,歡迎隨時與我們聯絡。讓我們一起,共同構建一個更加開放、強大、靈活的資料整合工具!

  • 如何參與貢獻:您可以透過提交程式碼、報告問題、撰寫文件等多種方式參與到 SeaTunnel 的開源社群中來。我們的 GitHub 頁面上有詳細的貢獻指南,幫助您快速入門。

  • 加入我們的討論:我們非常重視社群的聲音,並鼓勵大家在 GitHub Issue 頁面、郵件列表和其他討論渠道中分享您的想法和建議。您的每一個建議,都是我們改進和提升 Apache SeaTunnel 的寶貴財富。

本文由 白鯨開源 提供釋出支援!

相關文章