danthelion/trino-minio-iceberg-example:使用Minio、Trino、iceberg搭建資料工程演示案例

banq發表於2022-07-19

這個專案演示了使用Minio、Trino(具有眾多聯結器)等工具透過 Docker 在我們的機器上部署 MVP 版本來執行一些分析查詢.

資料湖
“Data Lakehouse”一詞是由 Databricks 創造的,他們將其定義為:
簡而言之,Data Lakehouse 是一種架構,可以直接對儲存在 Data Lakes 中的大量資料啟用高效且安全的人工智慧 (AI) 和商業智慧 (BI)。

基本上,如果您在物件儲存(例如 s3)中有大量檔案,並且您想對它們執行復雜的分析查詢,Lakehouse 可以幫助您實現這一目標,使您能夠執行 SQL 查詢而無需將資料移動到任何地方,例如資料倉儲。

Lakehouse 的核心儲存元件是資料湖:
資料湖是一種低成本、開放、持久的儲存系統,適用於任何資料型別——表格資料、文字、影像、音訊、影片、JSON 和 CSV。每個主要的雲提供商都利用和推廣雲中的資料湖,例如 AWS S3、Azure 資料湖儲存 (ADLS) 和谷歌雲端儲存 (GCS)。

 

相關文章