優步Uber向Apache軟體基金會提交了一個開源大資料庫Hudi
Hudi目前管理著超過4,000個表,在Uber儲存了數PB的資料,同時將Apache Hadoop倉庫訪問延遲從幾小時降低到30分鐘以下。Hudi還以比公司以前使用的解決方案更低的成本和更高的效率為數百個增量資料流水線提供支援。
Hudi已經發展成為一個通用的大資料儲存系統,可以:
- 攝取和查詢引擎之間的快照隔離,包括Apache Hive,Presto和Apache Spark
- 支援回滾和儲存點以恢復資料集
- 自動管理檔案大小和佈局,以最佳化查詢效能和目錄列表
- 近實時提取以使用新資料提供查詢
- 實時和柱狀資料的非同步壓縮
快速管理和訪問數PB資料的能力對於整個資料生態系統的可擴充套件增長至關重要。儘管如此,這種對規模和速度的綜合需求並不總是自然地適合現有的批處理和流式系統架構。
Hudi於2016年以代號“Hoodie”開發,旨在解決攝取和ETL管道中的低效問題,這些管道需要Uber 大資料生態系統中的 upsert和增量消費原語。為了與更廣泛的大資料社群分享這些好處,優步於2017年開放Hudi。
展望未來,該專案將與The Apache Software Foundation共存。請檢視Apache Hudi專案頁面,瞭解技術文件和社群參與指南。
相關文章
- Uber基於Apache Hudi構建PB級資料湖實踐Apache
- 深度對比Apache CarbonData、Hudi和Open Delta三大開源資料湖方案Apache
- 恭喜 DevLake 加入 Apache 軟體基金會孵化器!devApache
- 開源資料庫大會技術分享資料庫
- Linux基金會開源軟體學園技術公開課Linux
- Apache ShardingSphere:由開源驅動的分散式資料庫中介軟體生態Apache分散式資料庫
- 祝賀姜寧連任 2023 Apache 軟體基金會董事Apache
- 使用PyQt開發一個資料庫管理桌面軟體QT資料庫
- Apache Hudi助力nClouds加速資料交付ApacheCloud
- 祝賀姜寧當選 2022 Apache 軟體基金會新任董事Apache
- 調優 | Apache Hudi應用調優指南Apache
- 資料湖框架選型很糾結?一文了解Apache Hudi核心優勢框架Apache
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- 資料湖倉比較:Apache Hudi、Delta Lake、Apache IcebergApache
- Apache Hudi:雲資料湖解決方案Apache
- 使用Apache Hudi構建大規模、事務性資料湖Apache
- 教你一步步釋出一個開源庫到 JCenter
- Apache Hudi在醫療大資料中的應用Apache大資料
- 開源資料庫中介軟體-MyCa初探與分片實踐資料庫
- 大資料基礎軟體廠商請小心“開源”陷阱!大資料
- 用友財務軟體資料庫恢復步驟資料庫
- 基於Apache Hudi + MinIO 構建流式資料湖Apache
- Go的又一個分散式資料庫開源了Go分散式資料庫
- 巨杉資料庫加入CNCF雲原生應用計算基金會,共建開源技術生態資料庫
- 開源資料庫商業化加速,雲端計算助推開源軟體發展資料庫
- Uber將向公眾開放出行大資料:希望能更好規劃城市出行大資料
- 開源軟體安全任重道遠!80%的軟體程式碼庫包含至少一個漏洞
- Apache Hudi與Apache Flink整合Apache
- 開放原子開源基金會理事長楊濤出席數字中國軟體開源分論壇並演講
- 一個好的大資料分析軟體包含哪些功能大資料
- hudi clustering 資料聚集(一)
- 教你七步優化資料庫優化資料庫
- Harbor開源專案加入CNCF基金會!
- 官宣!AWS Athena正式可查詢Apache Hudi資料集Apache
- Robinhood基於Apache Hudi的下一代資料湖實踐Apache
- OpenSSF 和 Linux 基金會出席白宮峰會:開源軟體供應鏈安全議題成焦點Linux
- 新一代開源時序資料庫TDengine有哪些優勢?資料庫
- 中國首個開源基金會成立,已有七個專案加入孵化