重磅！flink-table-store 將作為獨立資料湖專案重新加入 Apache

老懞大資料發表於2023-03-01

資料湖是大資料近年來的網紅專案，大家熟知的開源資料湖三劍客 Apache hudi、Apache iceberg 、Databricks delta 近年來野蠻生長，目前各自背後也都有商業公司支援，投入了大量的人力物力去做研發和宣傳。然而今天我們要講的是資料湖界的後起之秀 —— flink-table-store。

熟悉 Flink 專案的同學對這個專案應該並不陌生，它在去年作為 Flink 的子專案加入了 Apache 社群，由 Flink 團隊主導研發，截止到目前 star 數 423，fork 數 171，總體來說並不算大火，也許是因為開源的時間並不長，也許是因為資料湖市場早已被三劍客佔據了大半，也許是宣傳的力度不夠，也許是 Flink 子專案限制了它作為資料湖產品的發展。然而可能也正是這些種種的原因促成了這次 flink-table-store 作為獨立專案重新加入 Apache，不再依附 Flink，這無論是對於 flink-table-store 的未來發展，還是對於資料湖領域來說都是一件好事。

從 Apache 的提案可以看出，flink-table-store 作為獨立專案後的專案名是 Paimon，玩過原神的同學應該對這個名字不陌生，它是遊戲中的 NPC，作為嚮導在整個冒險過程中陪伴著旅行者，至於 Paimon 具體的寓意可能得等官宣解釋了。

說回正題，Paimon 的定位是分散式檔案系統（HDFS、S3 等）上的資料檔案支援的湖儲存，用於使用大資料計算引擎（即 Flink、Spark、Hive、Trino 等）為流式處理和批處理構建動態表，支援高速資料攝取和實時資料查詢。與其他資料湖儲存專案不同，Paimon 旨在同時支援高吞吐量和低端到端延遲（更好的資料新鮮度），尤其適用於密集型 UPDATE 和 DELETE 工作負載。

Paimon 獨立加入Apache 後的一些規劃：

擴充套件Paimon的生態，提供獨立的Java API，支援 Spark、Hive、Trino、Presto、Doris等更多大資料引擎的讀寫。
補充關鍵能力，特別是流式讀取和密集更新/刪除，以建立統一且易於使用的流式資料倉儲（lakehouse）。
成長為一個更有活力和中立的開源社群。（關鍵詞“中立”，這也是促成Paimon獨立的主要原因）

Paimon 解決的痛點

隨著流處理在生產中的應用（Flink、Spark-Streaming等技術），對儲存同時支援更新、刪除和流式讀取的需求越來越大，為了支援這樣的要求我們有如下一些方案：

一種選擇是使用 OLAP 系統，如 ClickHouse 和 Aapache Doris，它們能夠提供高速資料攝取。但是不支援流式讀取，儲存成本比較高。
另一種選擇是使用現有的湖儲存，例如 Apache Hudi 和 Apache Iceberg。然而，從實時處理系統高速攝取最新（更新）資料提出了巨大的挑戰，並且會使兩個系統不堪重負。
建立 Paimon 就是為了解決現有解決方案的侷限
支援大資料集儲存，支援批流式讀寫。
支援流消費的增量快照。
支援最低延遲至毫秒的流式查詢。
支援批處理/OLAP 查詢，延遲最小到秒級。

Paimon 基本原理說明

Paimon原生採用LSM（Log-Structured Merge-tree）作為其底層資料結構，除了常見的湖儲存能力外，還為帶主鍵的資料提供了增強的效能。更重要的是，Paimon 支援批流操作（讀和寫），方便應用程式追求批流統一語義。具體來說：

Paimon 利用 LSM 資料結構的附加寫入功能，在密集的更新/刪除工作負載上提供出色的效能。
Paimon 利用 LSM 的有序特性支援有效的過濾器下推，可以將主鍵過濾查詢的延遲降低到毫秒級。
Paimon 支援各種（基於行或行列）檔案格式，包括 Apache Avro、Apache ORC 和 Apache Parquet（行在寫出之前將按主鍵排序）。
Paimon提供的表可以被各種引擎查詢，包括Apache Flink、Apache Spark、Apache Hive、Trino等。
Paimon 的後設資料是自我管理的，儲存在分散式檔案系統上，可以同步到 Hive metastore (HMS)。
除了常見的批次讀寫支援外，Paimon 還支援流式讀取和更改資料饋送。

目前該提案正在郵件討論的階段，孵化器導師對該專案獨立加入 ASF 都持贊同態度，相信不久就會官宣這一訊息。

另外有導師提出，鑑於大多數參與人員都熟悉 ASF 以及專案應該如何運作，是否可以不進過孵化器而直接作為單獨的頂級專案（TLP）。比如 Apache Camel 是 Apache ActiveMQ 的一個子專案，它沒有經過孵化器過程就成為了 TLP，因為大多數開發人員知道如何執行 ASF 專案。該方案目前還在討論當中。

隨著 Paimon 的獨立，資料湖市場的爭奪將進入白熱化階段，其實百花齊發對於使用者來說是利好的，良性競爭可以促進專案的快速迭代，但是在做選擇上還是得頭痛一會兒了，關於資料湖“四劍客”技術細節的文章後續會在這個公眾號上陸續更新，歡迎持續關注。不知道這次 Paimon 可以在資料湖領域掀起多大的浪，讓我們拭目以待！

最新資訊：macOS的Safari 將14作為獨立更新
2020-09-27
Mac
替代Hadoop作為資料湖的新的開源專案 - unpocodejava
2022-01-03
HadoopJava
dotnet 使用 MSTestRunner 將單元測試製作為獨立可執行檔案
2024-04-26
Django 專案配置拆分獨立
2021-11-18
Django
使用Apache Spark和Apache Hudi構建分析資料湖
2020-06-15
ApacheSpark
資料湖倉比較：Apache Hudi、Delta Lake、Apache Iceberg
2022-08-22
Apache
Apache Hudi：雲資料湖解決方案
2020-06-21
Apache
steam獨立遊戲資料
2024-11-15
遊戲
阿里云云原生資料湖分析DLA重磅釋出-資料湖管理，助力企業一站式管理OSS資料湖儲存資料
2020-08-31
阿里
基於Apache Hudi + MinIO 構建流式資料湖
2022-10-11
Apache
資料湖架構，為什麼需要“湖加速”？
2020-09-17
架構
釋出 UIAutomatorViewer 獨立包開源工程專案
2020-10-10
UIView
Doris 畢業成為 Apache 頂級專案，獨家專訪百度 PALO 團隊
2022-06-23
Apache
重磅｜Apache ShardingSphere 5.0.0 即將正式釋出
2021-11-10
Apache
重磅 | Dragonfly 晉升成為 CNCF 孵化專案
2020-04-10
Go
資料網格將替代資料倉儲或資料湖？- thenewstack
2022-01-30
又一巨頭為資料庫業務註冊獨立公司
2022-06-16
資料庫
Apple推出適用於macOS的Safari 14作為獨立更新
2020-09-27
APPMac
計算中介軟體 Apache Linkis 成為 Apache 重要專案
2023-02-02
Apache
談談將資料作為戰略資產管理
2023-02-28
能夠替代Hadoop用作資料湖新的開源專案 - unpocodejava
2022-01-03
HadoopJava
[提問交流]自定義獨立模型出現空白專案
2020-04-04
模型
資料湖+資料倉儲 = 資料湖庫架構
2022-01-13
架構
全球電商獨立站商品資料庫
2022-04-26
資料庫
資料湖
2024-03-18
Uber基於Apache Hudi構建PB級資料湖實踐
2020-06-11
Apache
使用Apache Hudi構建大規模、事務性資料湖
2020-06-27
Apache
基於Apache Hudi + Flink的億級資料入湖實踐
2022-01-09
Apache
KLOOK客路旅行基於Apache Hudi的資料湖實踐
2022-05-12
Apache
基於Apache Hudi在Google雲構建資料湖平臺
2022-04-07
ApacheGo
通過Apache Hudi和Alluxio建設高效能資料湖
2020-12-06
ApacheUX
正式畢業！Apache Kyuubi 成為 Apache 基金會頂級專案！
2022-12-29
Apache
如何將資料作為戰略資產進行管理
2022-09-30
大資料專案為什麼失敗，2017年將有何不同
2018-04-16
大資料
資料共享（淺複製）與資料獨立（深複製）
2024-07-21
7.Flink實時專案之獨立訪客開發
2022-03-05
思否獨立開發者丨@盧燦偉：做死三個專案，累到生了一場大病，為何還要做獨立開發者
2020-08-26
資料庫圈周盤點：Doris畢業成為Apache頂級專案;DataStax獲新投資
2022-06-17
資料庫ApacheAST

重磅！flink-table-store 將作為獨立資料湖專案重新加入 Apache

Paimon 獨立加入Apache 後的一些規劃：

Paimon 解決的痛點

Paimon 基本原理說明

相關文章