醫療線上OLAP場景下基於Apache Hudi 模式演變的改造與應用

leesf發表於2022-12-04

背景

在 Apache Hudi支援完整的Schema演變的方案中（https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q），讀取方面，只完成了SQL on Spark的支援（Spark3以上，用於離線分析場景），Presto（用於線上OLAP場景）及Apache Hive（Hudi的bundle包）的支援，在正式釋出版本中（Hudi 0.12.1, PrestoDB 0.277）還未支援。在當前的醫療場景下，Schema變更發生次數較多，且經常使用Presto讀取Hudi資料進行線上OLAP分析，在讀到Schema變更過的表時很可能會產生錯誤結果，造成不可預知的損失，所以必須完善Presto在讀取方面對Schema完整演變的支援。

另外使用者對使用presto對Hudi讀取的實時性要求較高，之前的方案裡Presto只支援Hudi的讀最佳化方式讀取。讀最佳化的情況下，由於預設的布隆索引有如下行為：

insert 操作的資料，每次寫入提交後能夠查詢到；
update，delete操作的資料必須在發生資料合併後才能讀取到；
insert與（update，delete）操作 presto 能夠查詢到的時間不一致；
所以必須增加presto對hudi的快照查詢支援。

由於Presto分為兩個分支（Trino和PrestoDB），其中PrestoDB的正式版本已經支援快照查詢模式，而Trino主線還不存在這個功能，所以優先考慮在PrestoDB上實現，我們基於Trino的方案也在開發中。

計劃基於Prestodb的Presto-Hudi模組改造，設計自 RFC-44: Hudi Connector for Presto。單獨的Hudi聯結器可以拋開當前程式碼的限制，高效地進行特定最佳化、新增新功能、整合高階功能並隨著上游專案快速發展。

術語說明

read_optimized（讀最佳化）：COW表和MOR表的ro表，只讀取parquet檔案的查詢模式
snapshot（快照）：MOR表的rt表，讀取log檔案和parquet並計算合併結果的查詢模式

現狀：

Hudi的Schema演變過程中多種引擎的表現

其中trino是以官方360版本為基礎開發的本地版本，部分參考某開啟狀態的pr，使其支援了快照查詢

Hive對Hudi支援的情況

hive使用hudi提供的hudi-hadoop-mr模組的InputFormat介面，支援完整schema的功能在10月28日合入Hudi主線。

Trino對Hudi支援的情況

Trino版本主線分支無法用快照模式查詢。Hudi聯結器最終於22年9月28日合入主線，仍沒有快照查詢的功能。本地版本基於trino360主動合入社群中開啟狀態的pr（Hudi MOR changes），基於hive聯結器完成了快照查詢能力。

PrestoDB對Hudi支援的情況

PrestoDB版本主線分支支援Hudi聯結器，本身沒有按列位置獲取列值的功能，所以沒有串列問題，並且支援快照查詢模式。

改造方案

版本

Hudi: 0.12.1
Presto: 0.275

該模組的設計如下

讀最佳化

Presto 會使用它自己最佳化的方式讀parquet檔案。在presto-hudi的HudiPageSourceProvider -> HudiParquetPageSources -> 最終使用presto-parquet 的 ParquetReader讀取

快照

Presto 針對mor表的快照讀，會使用hudi提供的huid-hadoop-mr的InputFormat介面。在presto-hudi的HudiPageSourceProvider -> HudiRecordCursors裡建立 HoodieParquetRealtimeInputFormat -> 獲取RealtimeCompactedRecordReader，基礎檔案使用HoodieParquetInputFormat的getRecordReader，日誌檔案使用HoodieMergedLogRecordScanner掃描

讀最佳化的改造

基本思想：在presto-hudi模組的HudiParquetPageSources中，獲取檔案和查詢的 InternalSchema ，merge後與presto裡的schema列資訊轉換，進行查詢。

具體步驟：

使用TableSchemaResolver的getTableInternalSchemaFromCommitMetadata方法獲取最新的完整InternalSchema
使用HudiParquetPageSources類的createParquetPageSource方法傳入引數regularColumns（List），與完整InternalSchema透過InternalSchemaUtils.pruneInternalSchema方法獲取剪枝後的InternalSchema
透過FSUtils.getCommitTime方法利用檔名的時間戳獲取commitInstantTime，再利用InternalSchemaCache.getInternalSchemaByVersionId方法獲取檔案的InternalSchema
使用InternalSchemaMerger的mergeSchema方法，獲取剪枝後的查詢InternalSchema和檔案InternalSchema進行merge的InternalSchema
使用merge後的InternalSchema的列名list，轉換為HudiParquetPageSources的requestedSchema，改變HudiParquetPageSources的getDescriptors和getColumnIO等方法邏輯的結果

實現為 https://github.com/prestodb/presto/pull/18557 （開啟狀態）

快照的改造

基本思想：改造huid-hadoop-mr模組的InputFormat，獲取資料和查詢的 InternalSchema ，將merge後的schema列資訊設定為hive任務所需的屬性，進行查詢。

具體步驟：

1.基礎檔案支援完整schema演變，spark-sql的實現此處無法複用，新增轉換類，在HoodieParquetInputFormat中使用轉換類，根據commit獲取檔案schema，根據查詢schema和檔案schema進行merge，將列名和屬性設定到job的屬性裡serdeConstants.LIST_COLUMNS，ColumnProjectionUtils.READ_COLUMN_NAMES_CONF_STR，serdeConstants.LIST_COLUMN_TYPES；

2.日誌檔案支援完整schema演變，spark-sql的實現此處可以複用。HoodieParquetRealtimeInputFormat的RealtimeCompactedRecordReader中，使用轉換類設定reader物件的幾個schema屬性，使其複用現有的merge資料schema與查詢schema的邏輯。

已經存在pr可以達到目標 https://github.com/apache/hudi/pull/6989 （合入master，0.13）

Presto的配置

${presto_home}/etc/catalog/hudi.properties，基本複製hive.properties；主要修改為

connector.name=hudi

Presto的部署

此處分別為基於hudi0.12.1和prestodb的release0.275合入pr後打的包，改動涉及檔案不同版本間差異不大，無需關注版本問題

分別將mor表改造涉及的包：

hudi-presto-bundle-0.12.1.jar

以及cow表改造涉及的包：

presto-hudi-0.275.1-SNAPSHOT.jar

放入${presto_home}/etc/catalog/hudi.propertiesplugin/hudi

重啟presto服務

開發過程遇到的問題及解決

總結

當前已經實現PrestoDB對Hudi的快照讀，以及對schema完整演變的支援，滿足了大批次表以MOR的表格式快速寫入資料湖，且頻繁變更表結構的同時，能夠準確實時地進行OLAP分析的功能。但由於Trino社群更加活躍，以前的很多功能基於Trino開發，下一步計劃改造Trino，使其完整支援快照讀與兩種查詢模式下的schema完整演變。

Apache Hudi在醫療大資料中的應用
2020-05-29
Apache大資料
Apache Hudi典型應用場景知多少？
2020-05-19
Apache
基於Apache Hudi構建資料湖的典型應用場景介紹
2021-08-22
Apache
基於 Apache Hudi 構建增量和無限回放事件流的 OLAP 平臺
2022-04-11
Apache事件
即構一站式線上醫療解決方案，支援六大應用場景
2019-01-08
應用實踐 | 10 億資料秒級關聯，貨拉拉基於 Apache Doris 的 OLAP 體系演進（附 PPT 下載）
2022-11-24
Apache
不斷豐富“VR+健康醫療”應用場景YD
2022-03-14
VR
深度 | 線下場景的客流數字化探索與應用
2019-01-08
基於Hadoop的Apache Hudi 0.10 釋出
2021-12-26
HadoopApache
10.14 | “區塊鏈+智慧醫療”應用與未來（線上）研討會
2021-10-12
區塊鏈
甘肅移動基於BSN專網賦能智慧醫療場景
2023-01-28
智慧醫療的主要應用場景和資料標註的關係 | 景聯文科技
2023-01-06
AI+醫療”獲政策支援六大應用場景有望落地
2018-04-12
AI
Apache Doris設計思想介紹與應用場景
2024-08-12
Apache
從Chat-GPT看爆火技術概念及醫療領域科技與應用場景
2023-04-17
GPT
一文聊透Apache Hudi的索引設計與應用
2022-12-18
Apache索引
Apache Hudi與Apache Flink整合
2020-10-13
Apache
人工智慧在醫療領域勢不可擋應用場景多元化
2018-03-22
人工智慧
調優 | Apache Hudi應用調優指南
2020-06-06
Apache
Apache Pulsar 與 Apache Kafka 在金融場景下的效能對比分析
2021-11-28
ApacheKafka
Apache Hudi在Hopworks機器學習的應用
2021-07-04
Apache機器學習
基於IM場景下的Wasm初探：提升Web應用效能｜得物技術
2024-11-05
ASMWeb
BFC的概念與應用場景
2019-01-05
Apache Flink 在國有大型銀行智慧運營場景下的應用
2022-03-25
Apache
教學直播系統的應用場景和變現模式詳解
2020-03-30
模式
醫療行業語音識別的變革力量：思通數科AI多模態能力平臺的技術說明與應用場景
2024-11-08
行業AI
基於Redis訊息的訂閱釋出應用場景
2019-06-12
Redis
數商雲醫藥行業SCM供應鏈管理系統應用場景、運用模式
2021-04-08
行業模式
基於Apache Hudi + MinIO 構建流式資料湖
2022-10-11
Apache
HarmonyOS 4.0 實況窗上線！支付寶實現醫療場景智慧提醒
2023-09-25
js代理模式理解和應用場景
2020-11-02
JS模式
Flutter 在流式場景下的架構設計與應用
2021-10-21
Flutter架構
解鎖「SOAR」在不同場景下的應用與實踐
2021-05-25
掘金3.5萬億美元市場，9類應用場景將在醫院率先落地【5G+醫療健康專題報告】
2019-04-10
C# - 逆變的具體應用場景
2022-01-14
C#
基於Apache Hudi和Debezium構建CDC入湖管道
2022-04-05
Apache
OnZoom 基於Apache Hudi的流批一體架構實踐
2021-12-26
OOMApache架構
基於Apache Hudi + Flink的億級資料入湖實踐
2022-01-09
Apache