spark structed streaming 寫入hudi表

hgs19921112發表於2022-03-06

原文網址 : http://blog.itpub.net/31506529/viewspace-2865291/

透過spark-sql建立hudi表

create table if not exists hudi_table3(
  id int,
  name string,
  price double
)  using hudi
options (
  'type' = 'mor',
  'primaryKey' = 'id',
  'hoodie.datasource.hive_sync.enable'='false',
  'hoodie.datasource.meta.sync.enable'='false',
  'hoodie.datasource.write.precombine.field'=price
)

2. 寫入hudi程式碼

val spark =
  SparkSession.builder()
    .master("local[*]")
    .enableHiveSupport()
    .config("spark.sql.extensions", "org.apache.spark.sql.hudi.HoodieSparkSessionExtension")
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    .getOrCreate()
val df = spark
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "test")
  .option("group.id","test-1")
  .load()
import spark.implicits._
val query = df
  .selectExpr("split(cast(value as string),',') as sp")
  .selectExpr("cast(sp[0] as int) as id ","sp[1] as name","cast(sp[2] as double) as price")
  .writeStream.format("hudi")
  .trigger(Trigger.ProcessingTime(5000L))
  .option("checkpointLocation","file:///Users/haoguangshi/mysoft/ck")
  .option("path","/Users/haoguangshi/workspace/hudi-lrn/spark-warehouse/hudi_table3")
  // 主鍵相同的話根據該欄位進行判斷需要保留那行資料PRECOMBINE_FIELD_OPT_KEY
  .option("hoodie.datasource.write.precombine.field","price")
  // 表主鍵 RECORDKEY_FIELD_OPT_KEY
  .option("hoodie.datasource.write.recordkey.field","id")
  .start()
query.awaitTermination()
spark.stop()

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31506529/viewspace-2865291/，如需轉載，請註明出處，否則將追究法律責任。

實戰|使用Spark Streaming寫入Hudi
2020-04-18
Spark
Spark Streaming入門
2018-05-16
Spark
使用 ES-Hadoop 將 Spark Streaming 流資料寫入 ES
2019-01-05
HadoopSpark
Spark Streaming簡單入門（示例+原理）
2022-07-12
Spark
Spark學習進度11-Spark Streaming&Structured Streaming
2021-01-15
SparkStruct
Spark Streaming VS Flink
2019-03-04
Spark
spark學習筆記-- Spark Streaming
2018-08-03
Spark筆記
Spark 系列（十四）—— Spark Streaming 基本操作
2019-08-14
Spark
Spark 系列（十五）—— Spark Streaming 整合 Flume
2019-08-15
Spark
Spark學習筆記（三）-Spark Streaming
2020-06-24
Spark筆記
spark-streaming之 socketTextStream
2018-10-17
Spark
Spark Streaming學習——DStream
2019-04-05
Spark
Spark Streaming 流式處理
2018-11-13
Spark
Spark Streaming ：基本工作原理
2018-10-12
Spark
Spark Structured Streaming 解析 JSON
2018-09-14
SparkStructJSON
Spark Streaming Failed to read chec
2021-09-09
SparkAI
Spark 以及 spark streaming 核心原理及實踐
2019-01-05
Spark
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL
Spark Streaming的PIDRateEstimator與backpressure
2018-08-30
Spark
Cris 的 Spark Streaming 筆記
2019-01-01
Spark筆記
Spark Streaming中的Window操作
2020-12-28
Spark
Spark Streaming監聽HDFS檔案（Spark-shell）
2024-11-04
Spark
Spark-Streaming的學習使用
2019-04-12
Spark
Spark Streaming 的容錯機制
2020-03-01
Spark
Spark Streaming和Flink的區別
2020-09-30
Spark
spark寫入hive資料
2019-04-09
SparkHive
spark 批次寫入redis控制
2024-12-05
SparkRedis
Spark Streaming（六）：快取與持久化
2018-11-07
Spark快取持久化
Spark Streaming--開窗函式over()
2019-01-02
Spark函式
Spark Streaming 之 Kafka 偏移量管理
2018-12-24
SparkKafka
Spark Streaming 生產、消費流程梳理
2021-09-09
Spark
Spark Streaming——Spark第一代實時計算引擎
2020-08-06
Spark
spark streaming執行kafka資料來源
2020-11-14
SparkKafka
spark structured-streaming 最全的使用總結
2021-11-06
SparkStruct
Spark 如何寫入HBase/Redis/MySQL/Kafka
2021-09-09
SparkRedisMySqlKafka
Spark streaming消費Kafka的正確姿勢
2019-03-26
SparkKafka
Spark Streaming讀取Kafka資料兩種方式
2018-12-19
SparkKafka
hadoop基礎學習三十一（spark-streaming）
2020-11-09
HadoopSpark

spark structed streaming 寫入hudi表

相關文章