馬薩諸塞州韋克菲爾德(Wakefield,MA)- 2020年6月 - Apache軟體基金會(ASF)、350多個開源專案和全職開發人員、管理人員和孵化器宣佈:Apache Hudi正式成為Apache頂級專案(TLP)。在投票表決Hudi畢業時,Hudi總共獲得了19票binding(其中包括ASF聯合創始人Jim Jagielski的一票),21票non-binding。
Apache Hudi(Hadoop Upserts Delete and Incremental)資料湖技術可在Apache Hadoop相容的雲端儲存和分散式檔案系統之上進行流處理。該專案最初於2016年在Uber開發(代號和發音為"Hoodie"),於2017年開源,並於2019年1月提交給Apache孵化器。
Apache Hudi專案VP Vinoth Chandar說:“在孵化器中學習和發展Apache之道是一種有益的體驗,作為一個社群,我們對我們共同推動該專案走了多遠依然感到謙卑,與此同時,對即將到來的挑戰感到興奮。”
Apache Hudi用於在Apache Hadoop分散式檔案系統(HDFS)或雲端儲存上使用流處理原語(例如插入更新和增量更改流)來管理PB級資料湖。Hudi資料湖提供了新鮮的資料,比傳統批處理效率高一個數量級。 核心功能包括:
- 可插拔式的索引支援快速Upsert / Delete。
- 事務提交/回滾資料。
- 支援捕獲Hudi表的變更進行流式處理。
- 支援Apache Hive,Apache Spark,Apache Impala和Presto查詢引擎。
- 內建資料提取工具,支援Apache Kafka,Apache Sqoop和其他常見資料來源。
- 通過管理檔案大小,儲存佈局來優化查詢效能。
- 基於行存快速提取模式,並支援非同步壓縮成列存格式。
- 用於審計跟蹤的時間軸後設資料。
阿里巴巴集團、亞馬遜AWS、EMIS Health、Linknovate、Tathastu.AI、騰訊和Uber等組織。都在使用Apache Hudi,https://hudi.apache.org/docs/powered_by.html 提供了使用Hudi的部分列表。
我們很高興看到Apache Hudi畢業成為Apache頂級專案。Apache Hudi在Amazon EMR版本5.28和更高版本中受支援,並使擁有Amazon S3資料湖中資料的客戶能夠執行記錄級的插入,更新和刪除操作,以執行隱私法規,更改資料捕獲(CDC)和簡化的資料管道開發 ” AWS總經理Rahul Pathak說。 “我們期待與我們的客戶和Apache Hudi社群合作,以幫助推進該專案。”
Apache Hudi專案管理委員會成員Nishith Agarwal說:“在Uber,Hudi近實時地管理地球上最大的交易資料湖之一,為全球使用者提供有意義的體驗,累計超過150 PB的資料和每天超過5,000億條記錄被提取,Uber的使用範圍從關鍵業務工作流程到分析和機器學習。”
“使用Apache Hudi,使用者可以輕鬆處理重讀或重寫的場景,並且Hudi使用Apache Parquet和Apache Avro管理儲存在HDFS/COS/CHDFS上的基礎資料。”騰訊雲實時計算服務技術負責人Felix Zheng說道。
“隨著雲的基礎設施越來越完善,使用者的資料分析和計算方案逐步開始基於雲上物件儲存和計算資源構建資料湖平臺。Hudi是一個很好的增量儲存引擎,用開放的方式幫助使用者管理好資料湖的資料,加速使用者的計算和分析。”阿里雲Data Lake Analytics - Lake Formation技術負責人李偉表示。
“Apache Hudi是Hopsworks Feature Store的關鍵模組,它提供了版本控制、增量和原子更新以及時間旅行查詢等功能” Logical Clocks的CEO /聯合創始人Jim Dowling說。“Hudi畢業成為Apache頂級專案,也是開源資料湖從早期的資料沼澤化身到現代支援ACID且可用於企業的資料平臺。”
Uber工程平臺高階總監Jennifer Anderson表示:“Hudi畢業成為Apache頂級專案是Hudi社群眾多貢獻者共同努力的結果。Hudi對於Uber大資料基礎架構的效能和可伸縮性至關重要。我們很高興看到它獲得牽引力並實現了這一重要里程碑。”
Vinoth Chandar補充道:“到目前為止,Hudi已經開始在業界中就資料倉儲和資料湖之間的巨大差距進行有意義的討論。在Apache社群的幫助下我們連線起了其中一部分,但我們僅僅是從技術路線圖著手。我們歡迎每位開發者做出更多貢獻和合作以實現這一目標!”
可以訪問 https://github.com/apache/hudi 給出你的star & fork.
在2020年6月7日至12日舉行的Virtual Berlin Buzzwords,MeetUps和其他活動中瞭解Apache Hudi。
可用性和監督
Apache Hudi是根據Apache License v2.0釋出的,並且由該專案的積極參與者自選團隊進行監督。專案管理委員會(PMC)指導專案的日常運營,包括社群開發和產品釋出。 有關下載,文件以及參與Apache Hudi的方式,請訪問http://hudi.apache.org/和https://twitter.com/apachehudi
關於Apache孵化器
Apache孵化器是希望成為Apache Software Foundation工作的一部分的專案和程式碼庫的主要入口。外部組織和現有外部專案的所有程式碼捐贈均通過孵化器進入ASF,以:1)確保所有捐贈均符合ASF法律標準; 2)建立符合我們指導原則的新社群。 所有新接受的專案都需要進行孵化,直到進一步的審查表明基礎架構,通訊和決策過程已經以與其他成功的ASF專案一致的方式穩定下來。 雖然孵化狀態不一定反映程式碼的完整性或穩定性,但確實表明該專案尚未得到ASF的完全認可。有關更多資訊,請訪問http://incubator.apache.org/
關於Apache軟體基金會(ASF)
這家全志願者基金會成立於1999年,負責監督350多個領先的開源專案,其中包括Apache HTTP Server(世界上最受歡迎的Web伺服器軟體)。通過ASF稱為“ Apache之道”的精英流程,六大洲的813名個人會員和7800個提交者成功地合作開發了免費的企業級軟體,使全球數百萬使用者受益:數千種軟體解決方案在Apache下分發執照;社群積極參與ASF郵件列表,指導計劃以及ApacheCon(基金會的官方使用者會議,培訓和博覽會)。ASF是一家美國501(c)(3)慈善組織,由個人捐款和企業贊助商資助,其中包括Aetna,阿里雲端計算,亞馬遜AWS,Anonymous,百度,彭博社,Budget Direct,Capital One,CarGurus。 Cerner,Cloudera,Comcast,Facebook,Google,Handshake,Huawei,IBM,Inspur,Leaseweb,Microsoft,Pineapple Fund,Red Hat,Target,騰訊,Union Investment,Verizon Media和Workday。有關更多資訊,請訪問http://apache.org/和https://twitter.com/TheASF
©Apache軟體基金會。 “ Apache”,“ Hudi”,“ Apache Hudi”,“ Hadoop”,“ Apache Hadoop”和“ ApacheCon”是Apache軟體基金會在美國和/或其他國家的註冊商標或商標。所有其他品牌和商標均為其各自所有者的財產。