Hive 整合 Hudi 實踐（含程式碼）| 可能是全網最詳細的資料湖系列

老懞大資料發表於2020-05-28

原文網址 : https://www.cnblogs.com/uncledata/p/12974087.html

公眾號後臺越來越多人問關於資料湖相關的內容，看來大家對新技術還是很感興趣的。關於資料湖的資料網路上還是比較少的，特別是實踐系列，對於新技術來說，基礎的入門文件還是很有必要的，所以這一篇希望能夠幫助到想使用Hudi的同學入門。

本篇的Hudi使用的是孵化版本 0.5.2；其他依賴 Spark-2.4.4，Hive-1.1.0

Hudi 伺服器環境準備

wget https://github.com/apache/hudi/archive/release-0.5.2-incubating.tar.gz
tar zxvf release-0.5.2-incubating.tar.gz
cd release-0.5.2-incubating
mvn clean package -DskipTests -DskipITs
cp ./hudi-hadoop-mr/target/hudi-hadoop-mr-0.5.2-incubating.jar $HIVE_HOME/lib/

拷貝依賴包到 Hive 路徑是為了 Hive 能夠正常讀到 Hudi 的資料，至此伺服器環境準備完畢。

用 Spark 寫一段資料

一切準備完畢先寫一段資料到 Hudi 裡，首先資料來源 ods.ods_user_event 的表結構為：

CREATE TABLE ods.ods_user_event(
    uuid STRING,
    name STRING,
    addr STRING,
    update_time STRING,
    date STRING)
stored as parquet;

然後是 Maven 的依賴，詳細程式碼關注公眾號【老懞大資料】回覆 hudi 後即可獲取。

      <dependency>
            <groupId>org.apache.hudi</groupId>
            <artifactId>hudi-spark_2.11</artifactId>
            <version>0.5.2-incubating</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hudi</groupId>
            <artifactId>hudi-common</artifactId>
            <version>0.5.2-incubating</version>
        </dependency>

程式碼邏輯：

初始化 SparkSession，配置相關配置項
構建 DataFrame，大家可以自由發揮，這裡的案例是從Hive讀資料構建。
DataFrame寫入Hudi，這一塊說到底就是把資料寫入 HDFS 路徑下，但是需要一堆配置，這些配置就體現了 Hudi 的特性：
- DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY：指定唯一id的列名
- DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY：指定更新時間，該欄位數值大的資料會覆蓋小的
- DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY：指定分割槽列，和Hive的分割槽概念類似
- HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION_PATH：設定當分割槽變更時，當前資料的分割槽目錄是否變更
- HoodieIndexConfig.INDEX_TYPE_PROP：設定索引型別目前有 HBASE,INMEMORY,BLOOM,GLOBAL_BLOOM 四種索引
  上述例子中，選擇了 HoodieGlobalBloomIndex(全域性索引)，會在所有分割槽內查詢指定的 recordKey。而 HoodieBloomIndex 只在指定的分割槽內查詢。

  def main(args: Array[String]): Unit = {
    val sss = SparkSession.builder.appName("hudi")
      .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .config("hive.metastore.uris", "thrift://ip:port")
      .enableHiveSupport().getOrCreate()

    val sql = "select * from ods.ods_user_event"
    val df: DataFrame = sss.sql(sql)

    df.write.format("org.apache.hudi")
      .option(DataSourceWriteOptions.RECORDKEY_FIELD_OPT_KEY, "recordKey") 
      .option(DataSourceWriteOptions.PRECOMBINE_FIELD_OPT_KEY, "update_time") 
      .option(DataSourceWriteOptions.PARTITIONPATH_FIELD_OPT_KEY, "date") 
      .option(HoodieIndexConfig.BLOOM_INDEX_UPDATE_PARTITION_PATH, "true")
      .option(HoodieIndexConfig.INDEX_TYPE_PROP, HoodieIndex.IndexType.GLOBAL_BLOOM.name())
      .option("hoodie.insert.shuffle.parallelism", "10")
      .option("hoodie.upsert.shuffle.parallelism", "10")
      .option(HoodieWriteConfig.TABLE_NAME, "ods.ods_user_event_hudi")
      .mode(SaveMode.Append)
      .save("/user/hudi/lake/ods.db/ods_user_event_hudi")
  }

執行成功後會有如下結果，因為我們是按照date分割槽，每一天的資料會生成一個資料夾和Hive類似。

[hadoop@hadoop31 ~]# hdfs dfs -ls /user/hudi/lake/ods.db/ods_user_event_hudi/
Found 4 items
drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200501
drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200502
drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200503
drwxr-xr-x   - hadoop hadoop 0 2020-05-25 18:42 /user/hudi/lake/ods.db/ods_user_event_hudi/20200504

另外，注意 recordKey 必須唯一，不然資料會被覆蓋，且值不能為 null，否則會有以下報錯。

Caused by: org.apache.hudi.exception.HoodieKeyException: recordKey value: "null" for field: "user_uid" cannot be null or empty.

Hive 建立外部表讀資料

上一步中 Spark 將資料寫到了 hudi，想要通過Hive訪問到這塊資料，就需要建立一個Hive外部表了，因為 Hudi 配置了分割槽，所以為了能讀到所有的資料，我們們的外部表也得分割槽，分割槽欄位名可隨意配置。

CREATE TABLE ods.ods_user_event_hudi(
    uuid STRING,
    name STRING,
    addr STRING,
    update_time STRING,
    date STRING)
PARTITIONED BY ( 
  `dt` string)
ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hudi.hadoop.HoodieParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  '/user/hudi/lake/ods.db/ods_user_event_hudi'

至此，直接讀資料肯定是空的，因為我們建立的是個分割槽表，所以還需要指定分割槽

alter table ods.ods_user_event_hudi add if not exists partition(dt='20200504') location '/user/hudi/lake/ods.db/ods_user_event_hudi/20200504'

那麼這個時候問題來了，一年有365個分割槽，要一個一個建立手動建立分割槽嗎？
抱歉我也沒發現更好的辦法，只能送你個簡單的指令碼了。

#!/bin/bash
start_date=20190101
end_date=20200520
start=`date -d "$start_date" "+%s"`
end=`date -d "$end_date" "+%s"`
for((i=start;i<=end;i+=86400)); do
    dt=$(date -d "@$i" "+%Y%m%d")
    hive -e "alter table ods.ods_user_event_hudi add if not exists partition(dt='${dt}') location '/user/hudi/lake/ods.db/ods_user_event_hudi/${dt}';
    "
done

後記

最後，執行 select * from ods.ods_user_event_hudi 要是沒有資料你來找我。另外值得注意的是，如果此時直接用 Hive 將資料 insert into ods.ods_user_event_hudi，雖然資料會寫入到 hudi 的目錄下，但是相同的 recordKey 是不會覆蓋原有資料的。

下一篇詳細寫 Spark 操作 Hudi 的相關內容，敬請期待。本篇詳細程式碼關注公眾號【老懞大資料】回覆 hudi 後即可獲取。

可能是全網最詳細的express--middleware
2019-05-25
Express
Apache Hudi 在 B 站構建實時資料湖的實踐
2021-09-27
Apache
基於Apache Hudi + Flink的億級資料入湖實踐
2022-01-09
Apache
KLOOK客路旅行基於Apache Hudi的資料湖實踐
2022-05-12
Apache
Flink CDC + Hudi 海量資料入湖在順豐的實踐
2022-06-14
可能是最詳細的字元編碼詳解
2019-04-03
字元
Uber基於Apache Hudi構建PB級資料湖實踐
2020-06-11
Apache
Robinhood基於Apache Hudi的下一代資料湖實踐
2022-03-31
Apache
全網最詳細4W字Flink全面解析與實踐(下)
2023-11-04
可能是全網最全最新最細的 webpack-tapable-2.0 的原始碼分析
2019-03-02
Web原始碼
Java-全網最詳細反射
2023-10-28
Java反射
Apache Hudi 與 Hive 整合手冊
2021-12-12
ApacheHive
全網最詳細的Spring入門教程
2024-12-09
Spring
全網最詳細的ReentrantReadWriteLock原始碼剖析（萬字長文）
2021-12-07
原始碼
純JS實現貪吃蛇遊戲 —— 可能是全網程式碼最優雅的實現。
2021-01-18
JS遊戲
生態 | Apache Hudi整合Alluxio實踐
2020-07-20
ApacheUX
可能是全網最詳細的 Spring Cloud OAuth2 單點登入使用教程了
2020-03-18
SpringCloudOAuth
全網最詳細的AbstractQueuedSynchronizer(AQS)原始碼剖析（一）AQS基礎
2021-12-11
AQS原始碼
Apache Hudi：雲資料湖解決方案
2020-06-21
Apache
全網最詳細的PyCharm+Anaconda的安裝。
2021-01-24
PyCharm
基於DataLakeAnalytics的資料湖實踐
2018-09-03
基於 DataLakeAnalytics 的資料湖實踐
2019-03-19
全網最詳細的AbstractQueuedSynchronizer(AQS)原始碼剖析（二）資源的獲取和釋放
2021-12-12
AQS原始碼
全網最詳細的AbstractQueuedSynchronizer(AQS)原始碼剖析（三）條件變數
2021-12-22
AQS原始碼變數
網易數帆實時資料湖 Arctic 的探索和實踐
2021-12-16
這可能是最詳細的Python檔案操作
2019-01-04
Python
呼叫API介面獲取淘寶商品資料：詳細指南與程式碼實踐
2023-11-08
API
全網最詳細的負載均衡原理圖解
2021-01-21
負載圖解
全網最詳細最齊全的序列化技術及深度解析與應用實戰
2021-11-16
ClickHouse(19)ClickHouse整合Hive表引擎詳細解析
2023-12-23
Hive
Kafka原始碼篇 --- 可能是你看過最詳細的RecordAccumulator解讀
2020-01-07
Kafka原始碼
Atlas 2.1.0 實踐（3）—— Atlas整合HIve
2021-01-25
Hive
前端魔法堂：可能是你見過最詳細的WebWorker實用指南
2020-12-16
前端Web
今年最巔峰對決！《元夢》VS《蛋仔》獨家資料公佈！全網最詳細！
2023-12-18
可能是全網最詳細的 Spring Cloud OAuth2 授權碼模式使用教程了，微信登入就是這個原理
2020-03-19
SpringCloudOAuth模式
使用 Flink Hudi 構建流式資料湖平臺
2022-02-23
基於Apache Hudi + MinIO 構建流式資料湖
2022-10-11
Apache
史上最詳細的IDEA優雅整合Maven+SSM框架（詳細思路+附帶原始碼）
2019-11-01
IdeaMavenSSM框架原始碼

Hive 整合 Hudi 實踐（含程式碼）| 可能是全網最詳細的資料湖系列

Hudi 伺服器環境準備

用 Spark 寫一段資料

Hive 建立外部表讀資料

後記

相關文章