優步Uber向Apache軟體基金會提交了一個開源大資料庫Hudi
Hudi目前管理著超過4,000個表,在Uber儲存了數PB的資料,同時將Apache Hadoop倉庫訪問延遲從幾小時降低到30分鐘以下。Hudi還以比公司以前使用的解決方案更低的成本和更高的效率為數百個增量資料流水線提供支援。
Hudi已經發展成為一個通用的大資料儲存系統,可以:
- 攝取和查詢引擎之間的快照隔離,包括Apache Hive,Presto和Apache Spark
- 支援回滾和儲存點以恢復資料集
- 自動管理檔案大小和佈局,以最佳化查詢效能和目錄列表
- 近實時提取以使用新資料提供查詢
- 實時和柱狀資料的非同步壓縮
快速管理和訪問數PB資料的能力對於整個資料生態系統的可擴充套件增長至關重要。儘管如此,這種對規模和速度的綜合需求並不總是自然地適合現有的批處理和流式系統架構。
Hudi於2016年以代號“Hoodie”開發,旨在解決攝取和ETL管道中的低效問題,這些管道需要Uber 大資料生態系統中的 upsert和增量消費原語。為了與更廣泛的大資料社群分享這些好處,優步於2017年開放Hudi。
展望未來,該專案將與The Apache Software Foundation共存。請檢視Apache Hudi專案頁面,瞭解技術文件和社群參與指南。
相關文章
- 深度對比Apache CarbonData、Hudi和Open Delta三大開源資料湖方案Apache
- Apache軟體基金會主席Greg Stein:軟體需要在開源中獲益(轉)Apache
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- Apache ShardingSphere:由開源驅動的分散式資料庫中介軟體生態Apache分散式資料庫
- 使用PyQt開發一個資料庫管理桌面軟體QT資料庫
- Apache Hudi助力nClouds加速資料交付ApacheCloud
- 搜狐開源資料庫中介軟體 SOHU-DBProxy資料庫
- 調優 | Apache Hudi應用調優指南Apache
- PouchDB:一個開源的 JS 資料庫JS資料庫
- 資料湖框架選型很糾結?一文了解Apache Hudi核心優勢框架Apache
- 使用Apache Hudi構建大規模、事務性資料湖Apache
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 資料湖倉比較:Apache Hudi、Delta Lake、Apache IcebergApache
- Apache Hudi:雲資料湖解決方案Apache
- “一片羽毛的故事”:Apache軟體基金會成立15年Apache
- Linux基金會:開源正在蠶食軟體世界Linux
- 如何向開源社群提問題
- 如何設計一個資料庫中介軟體資料庫
- 恭喜 DevLake 加入 Apache 軟體基金會孵化器!devApache
- Apache Hudi在醫療大資料中的應用Apache大資料
- Apache基金會接受阿里開源JStorm捐贈Apache阿里JSORM
- 10個強大的Apache開源模組Apache
- 教你一步步釋出一個開源庫到 JCenter
- 值得關注的12大開源大資料分析應用軟體大資料
- 大資料基礎軟體廠商請小心“開源”陷阱!大資料
- Linux基金會開源軟體學園技術公開課Linux
- 開源資料庫中介軟體-MyCa初探與分片實踐資料庫
- LinkedIn開源Cubert,著眼於大資料分析大資料
- 開源資料庫商業化加速,雲端計算助推開源軟體發展資料庫
- 用友財務軟體資料庫恢復步驟資料庫
- 微軟開源.NET庫,成立.NET基金會微軟
- 一個好的大資料分析軟體包含哪些功能大資料
- 開源資料庫大會技術分享資料庫
- 開源軟體安全任重道遠!80%的軟體程式碼庫包含至少一個漏洞
- Go的又一個分散式資料庫開源了Go分散式資料庫
- 資料庫優化的步驟資料庫優化
- kubernetes-部署Oracle資料庫步驟Oracle資料庫
- 開源物件導向資料庫 db4o 之旅物件資料庫