基於Hadoop的Apache Hudi 0.10 釋出

banq發表於2021-12-26
Apache Hudi 0.10 釋出,Hadoop關聯

http://www.linuxeden.com/a/96092

使用 Apache Hudi 在 Uber 構建大規模交易資料湖:https://eng.uber.com/apache-hudi-graduation/

Apache Hudi是一個儲存抽象框架,幫助分散式組織構建和管理兆位元組規模的資料湖。Hudi使用上插入和增量拉動等原語,將流式處理引入類批處理的大資料。這些功能有助於為我們的服務顯示更快、更新鮮的資料,具有分分鐘以下資料延遲的統一服務層,避免了維護多個系統的任何額外開銷。增加了靈活性,Apache Hudi可以在Hadoop分散式檔案系統(HDFS)或雲端儲存上執行。

Hudi在資料湖上啟用原子性、一致性、隔離性和永續性(ACID)語義。Hudi使用最廣泛的兩個功能是上插入和增量拉動,這使使用者能夠吸收更改資料捕獲並將其大規模應用於資料湖。Hudi提供了廣泛的可插拔索引功能,以實現這一點,以及自己的資料索引實現。Hudi控制和管理資料湖中檔案佈局的能力不僅對克服HDFS命名節點和其他雲端儲存限制極其重要,而且對於通過提高可靠性和查詢效能來維護健康的資料生態系統也極其重要。為此,Hudi支援多個查詢引擎整合,如Presto、Apache Hive、Apache Spark和Apache Impala。

 

相關文章