SeaTunnel用於海量資料的同步和轉換

banq發表於2022-01-13

SeaTunnel 是一個分散式、高效能的資料整合平臺,用於海量資料(離線和實時)的同步和轉換。
SeaTunnel 原名 Waterdrop,2021 年 10 月 12 日起更名為 SeaTunnel。
SeaTunnel是一個非常好用的超高效能分散式資料整合平臺,支援海量資料的實時同步。每天可以穩定高效地同步數百億資料,已應用於近百家企業的生產中。
SeaTunnel會盡力解決海量資料同步中可能遇到的問題:
  • 資料丟失和重複
  • 任務累積和延遲
  • 低吞吐量
  • 長週期應用於生產環境
  • 缺乏應用執行狀態監控

SeaTunnel 使用場景
  • 海量資料同步
  • 海量資料整合
  • 具有海量資料的 ETL
  • 海量資料聚合
  • 多源資料處理

特點
  • 簡單易用,配置靈活,低程式碼開發
  • 實時流式傳輸
  • 離線多源資料分析
  • 高效能、海量資料處理能力
  • 模組化和外掛機制,易於擴充套件
  • 支援SQL資料處理和聚合
  • 支援 Spark 結構化流
  • 支援 Spark 2.x

資料處理管道由多個過濾器構成,以滿足各種資料處理需求。如果習慣SQL,也可以直接透過SQL構建資料處理管道,簡單高效。目前,SeaTunnel 支援的過濾器列表還在擴充套件中。此外,您可以開發自己的資料處理外掛,因為整個系統易於擴充套件。
SeaTunnel 支援的外掛
  • 輸入外掛 Fake、File、Hdfs、Kafka、Druid、S3、Socket、自研輸入外掛
  • 過濾器外掛 Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自研過濾器外掛
  • 輸出外掛 Elasticsearch、File、Hdfs、Jdbc、Kafka、Druid、Mysql、S3、Stdout、自研輸出外掛

中文文件

相關文章