回顧 2023:Hudi 的重點新功能一覽
Apache Hudi PMC 全體成員向 Hudi 社群的廣大貢獻者和使用者表示感謝 -- 你們的貢獻與支援讓 Hudi 的 2023 與眾不同。
開發亮點回顧
2023 年是 Hudi 非常高產的一年,有許多重大的進步和創新。這一年有三個主要版本釋出:0.13.0,0.14.0,和開拓性的 1.0.0-beta1 。這些版本共同重塑了 Hudi 資料湖倉上的資料庫體驗。以下是針對一些關鍵的功能和提升做的高亮總結。
索引能力提升到了一個新高度
Hudi 新的記錄級索引(Record Level Index)[4]是一個顛覆性的功能,它可以大幅提高寫入效能。透過儲存每個記錄的位置,它能在索引查詢期間實現快速檢索。基準測試表明,與全域性簡單索引(Global Simple Index)相比,寫入延遲降低了 72%。同時,等值匹配查詢的延遲也能被顯著降低。新的一致性雜湊索引(Consistent Hash Index)[5]能動態調整基於雜湊的索引桶。透過解決桶索引(Bucket Index)的資料傾斜問題,它可以在寫入過程中實現與記錄級索引相似的高速查詢。函式索引(Functional Index)[6]允許在特定欄位上建立和刪除索引,為使用者提供更多手段來加速查詢並調整分割槽。
寫入吞吐量取得了顯著提升
開發人員選擇 Hudi 的一個常見原因是其業界領先的寫入吞吐量和效能[7]。社群在寫入效能方面繼續進行創新,包括用於 OCC 的早期衝突檢測[8]:該檢測會在併發寫把資料寫入磁碟前主動驗證衝突,從而避免大量的資源浪費並提高吞吐量。1.0 中引入的非阻塞併發控制(Non-Blocking Concurrency Control)[9]允許衝突在之後的查詢中或透過 compaction 解決,進一步最佳化了併發寫的吞吐量。響應了社群的普遍需求,partial update 功能[10]已實現,允許僅更新已更改的欄位,對於寬的維度表非常適用。
全新的 API 介面
HoodieRecordMerger[11]是一個全新的抽象,它統一了合併語義並充分利用了引擎原生的記錄模型。基準測試顯示,upsert 效能提高了大約 10-20%。File Group Reader[12]是一個將檔案組訪問標準化的 API,可將 MoR 表的讀取延遲降低約 20%。啟用位置合併和頁面跳過在一些場景下甚至可以加速快照查詢約 5.7 倍。
易用性得到了密切關注
Table-valued function hudi_table_changes[13]簡化了透過 SQL 執行增量查詢。自動主鍵生成[14]允許使用者省略記錄的主鍵欄位,特別適用於 append-only 表。在許多其他易用性的提升中,有兩個值得一提的是新增了 hudi-cli-bundle jar[15] 和改進過的配置頁面[16].
平臺化能力得到了大力增強
變更資料捕獲(Changed Data Capture)[17]是透過寫入器記錄額外資訊來支援的。變更的資料,包括 before 和 after 快照,可以透過增量查詢來獲取,從而提供豐富的分析性情報。Metaserver[18]為湖倉專案提供了能夠管理海量表格的中心化服務,標誌著 Hudi 的平臺化功能邁出了一大步。HoodieStreamer[19](以前的HoodieDeltaStreamer)依然是一項非常流行的資料攝取工具:新新增的 Protobuf Kafka 源、GCS 增量源和 Pulsar 源等新的 Source 類進一步擴充套件了平臺整合能力。
生態系統的整合獲得了大量擴充
在 AWS 上,Athena 支援了 Hudi 0.12.2 和 Hudi 後設資料表[20],整體提升了查詢效能。AWS Glue crawlers 新增了 Hudi 支援[21]並使得 Glue 4.0 能相容 Hudi 0.12.1,AWS EMR 也擴充套件了支援矩陣[22],涵蓋了 Hudi 0.13 和 0.14。GCP 提升了Hudi 與 BigQuery的整合[23]:實現了清單檔案的整合以提高效能。Starburst 也新增了 Hudi 聯結器[24]。執行引擎的支援也升級到了更新的版本,包括 Spark 3.4 和 3.5 以及 Flink 1.16、1.17 和 1.18。
互操作性至關重要
雖然 Hudi 繼續保持著強勁的増勢,社群的一些同行們也認為,是時候開始搭建跨越諸如 Delta Lake、Iceberg 等湖倉格式的互操作性的橋樑了。OneTable 最近宣佈開源[25],意味著替想要構建資料湖倉架構的開發人員邁出了一大步。這一進展不僅強調了 Hudi 對開放性的承諾,還使得更多使用者能夠體驗到 Hudi 所提供的技術優勢。
期待 2024
檔案組讀取器 API 有望被廣泛使用,為眾多查詢引擎帶來所期望的好處。我們預計非阻塞併發控制也將被廣泛採用。除此之外,還有更多令人期待的功能,包括無限時間線、二級索引、多表事務以及對非結構化資料的支援。關於最新進展和更多說明,歡迎參考路線圖[26]。
互動起來
回顧豐富的 2023,Hudi 社群持續發展,歡迎各種形式的參與。想建立聯絡的同學,歡迎加入 Slack 空間[27]問問題,這裡有 Hudi 專家和基於LLM的問答機器人。當然也歡迎透過 Apache Hudi 公眾號索取微信和釘釘群。您也可以參與每週問答[28]和月同步會[29]。瞭解最新動態,歡迎關注 Hudi 的 LinkedIn[30],X (Twitter)[31],YouTube[32],還有 Apache Hudi 微信公眾號。
如果遇到問題或有功能請求,歡迎提交 GitHub issue[33]或 JIRA[34]。參與更多深度討論,訂閱(傳送空郵件至)開發者郵件列表[35]是個不錯的選擇。
對於感興趣參與直接貢獻的同學,可以從這個貢獻指南[36]開始。無論是貢獻程式碼,分享想法,還是簡單地給 GitHub 倉庫[37]點個星,我們都很重視。讓我們一起繼續塑造 Hudi 的未來,在開源社群中推動創新。期待一個更加充滿活力的成就的 2024!
來自 “ ApacheHudi ”, 原文作者:許世彥;原文連結:https://mp.weixin.qq.com/s/_tTYgklj7YPCLDc0VBfhUA,如有侵權,請聯絡管理員刪除。
相關文章
- 我的2023回顧
- 跟著大神回顧ACL 2018:大會亮點一覽
- 昨日PHP中高階面試重點回顧PHP面試
- 小米12系列釋出會重點回顧
- Savills:2023年第一季度之成都、重慶、西安回顧及展望
- CBRE:2022年重慶房地產市場回顧與2023年展望
- Apache Hudi C位!雲端計算一哥AWS EMR 2020年度回顧Apache
- TiDB in 2023, 一次簡單的回顧丨PingCAP 唐劉TiDBPingCAP
- 一次事故的回顧
- 【譯】Visual Studio 中的 GitHub Copilot:2023年回顧Github
- 一週回顧(3.24)
- 10月回顧 | Apache SeaTunnel社群動態與進展一覽Apache
- 2023 SDC 議題回顧 | 輕舟“難”過萬重山——工控漏洞挖掘的探索實踐
- 甜點cc的2022年回顧總結
- 直播回顧| Apache Pulsar 2.10.0 新特性概覽Apache
- 周熱點回顧(6.13-6.19)
- 錯題知識點回顧1
- 11.03:Redis持久化、主從、哨兵、叢集、常見問題重點回顧Redis持久化
- 「BUAA OO Pre」 Pre 2總結回顧概覽
- Hexo部落格(Snail主題)搭建回顧概覽HexoAI
- 上週熱點回顧(11.25-12.1)
- 上週熱點回顧(12.2-12.8)
- 上週熱點回顧(11.11-11.17)
- 上週熱點回顧(11.4-11.10)
- 上週熱點回顧(10.14-10.20)
- 上週熱點回顧(10.21-10.27)
- 上週熱點回顧(10.7-10.13)
- 上週熱點回顧(9.30-10.6)
- 上週熱點回顧(9.9-9.15)
- 上週熱點回顧(9.2-9.8)
- 上週熱點回顧(8.12-8.18)
- 上週熱點回顧(8.5-8.11)
- 上週熱點回顧(7.22-7.28)
- 上週熱點回顧(7.15-7.21)
- 上週熱點回顧(7.1-7.7)
- 上週熱點回顧(6.24-6.30)
- 上週熱點回顧(6.17-6.23)
- 上週熱點回顧(11.13-11.19)