Apache Paimon流式湖倉學習交流群成立

獨孤風發表於2023-12-01

Apache Paimon是一個流式資料湖平臺。致力於構建一個實時、高效的流式資料湖平臺。這個專案採用了先進的流式計算技術,使企業能夠實時處理和分析大量資料。Apache Paimon 的核心優勢在於它對於大資料生態系統中流式處理的支援,尤其是在高併發和低延遲方面表現出色。

目前業界主流資料湖儲存格式專案都是面向 Batch 場景設計的,在資料更新處理時效性上無法滿足 Streaming Lakehouse 的需求,因此 Flink 社群在一年多前內部孵化了 Flink Table Store (簡稱 FTS )子專案,一個真正面向 Streaming 以及 Realtime 的資料湖儲存專案。

為了讓 Flink Table Store 能夠有更大的發展空間和生態體系,Flink PMC 經過討論決定將其捐贈 Apache 進行獨立孵化。

2023年3月12日,FTS進入 Apache 軟體基金會 (ASF) 的孵化器,改名為 Apache Paimon (incubating)。

第一個流式資料湖專案誕生,流式湖倉一體成為可能,一個真正意義上的批流一體技術可能就此出現,傳統Kappa架構的實時數倉體系,也迎來了一次巨大變革。

其Github地址為:https://github.com/apache/incubator-paimon

官網地址為:https://paimon.apache.org/

目前Paimon在蓬勃發展中。

Paimon 創新的結合了 湖儲存 + LSM + 列式格式 (ORC, Parquet),為湖儲存帶來大規模實時更新能力。

流式湖倉(Streaming Data Lakehouse)是一個結合了資料湖和資料倉儲特點的新型資料儲存和處理架構。它不僅支援海量資料儲存,還提供了對實時資料流的處理能力,能夠滿足企業對資料即時分析和決策的需求。流式湖倉的出現,標誌著資料處理從批處理向實時處理的轉變。

目前,資料處理領域正在經歷一場重大變革,流式湖倉被認為是未來的發展趨勢。其原因在於:

  1. 實時資料處理需求日益增長:隨著物聯網和線上服務的發展,企業需要實時處理和分析資料以快速做出決策。
  2. 技術進步:流式處理技術的不斷進步,使得處理大規模實時資料成為可能。
  3. 資料整合和治理:流式湖倉可以整合來自不同來源的資料,並提供更好的資料治理。

Apache Paimon 正是在這樣的背景下應運而生。它透過提供一個高效、可伸縮、易於管理的平臺,幫助企業把握實時資料處理的機遇。隨著技術的不斷髮展和應用場景的擴充,Apache Paimon 及類似的流式湖倉解決方案將會在資料處理領域扮演越來越重要的角色。

鑑於此,大資料流動社群決定成立Apache Paimon流式湖倉學習交流社群,也希望更多對Apache Paimon感興趣的同學加入進來。

更多大資料、資料治理、人工智慧知識學習,加入學習社群,請關注大資料流動。

加入學習交流群請關注大資料流動後臺回覆:Paimon學習交流群