客快物流大資料專案(四十五)：Spark操作Kudu DML操作

十一vs十一發表於2024-03-30

原文網址 : https://www.cnblogs.com/shan13936/p/18104918

大資料Spark

Spark操作Kudu DML操作

Kudu支援許多DML型別的操作，其中一些操作包含在Spark on Kudu整合. 包括：

INSERT - 將DataFrame的行插入Kudu表。請注意，雖然API完全支援INSERT，但不鼓勵在Spark中使用它。使用INSERT是有風險的，因為Spark任務可能需要重新執行，這意味著可能要求再次插入已插入的行。這樣做會導致失敗，因為如果行已經存在，INSERT將不允許插入行（導致失敗）。相反，我們鼓勵使用下面描述的INSERT_IGNORE。
INSERT-IGNORE - 將DataFrame的行插入Kudu表。如果表存在，則忽略插入動作。
DELETE - 從Kudu表中刪除DataFrame中的行
UPSERT - 如果存在，則在Kudu表中更新DataFrame中的行，否則執行插入操作。
UPDATE - 更新dataframe中的行

一、插入資料insert操作

先建立一張表，然後把資料插入到表中

package cn.it

import java.util

import cn.it.SparkKuduDemo.{TABLE_NAME, it}
import org.apache.kudu.client.CreateTableOptions
import org.apache.kudu.spark.kudu.KuduContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}


object SparkKuduTest {
  //定義樣例類
  case class person(id:Int, name:String, age:Int, sex:Int)
  
  def main(args: Array[String]): Unit = {
    //構建sparkConf物件
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkKuduTest").setMaster("local[2]")

    //構建SparkSession物件
    val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

    //獲取sparkContext物件
    val sc: SparkContext = sparkSession.sparkContext
    sc.setLogLevel("warn")

    //構建KuduContext物件
    val kuduContext = new KuduContext("node2:7051", sc)

    //1.建立表操作
    createTable(kuduContext)

    /**
     * 建立表
     *
     * @param kuduContext
     * @return
     */
    def createTable(kuduContext: KuduContext) = {
      //如果表不存在就去建立
      if (!kuduContext.tableExists(TABLE_NAME)) {

        //構建建立表的表結構資訊,就是定義表的欄位和型別
        val schema: StructType = StructType(
          StructField("userId", StringType, false) ::
            StructField("name", StringType, false) ::
            StructField("age", IntegerType, false) ::
            StructField("sex", StringType, false) :: Nil)

        //指定表的主鍵欄位
        val keys = List("userId")

        //指定建立表所需要的相關屬性
        val options: CreateTableOptions = new CreateTableOptions
        //定義分割槽的欄位
        val partitionList = new util.ArrayList[String]
        partitionList.add("userId")
        //新增分割槽方式為hash分割槽
        options.addHashPartitions(partitionList, 6)

        //建立表
        kuduContext.createTable(TABLE_NAME, schema, keys, options)
      }
    }

    /**
     * 2）載入資料
     * @param session
     * @param sc
     * @param kuduContext
     */
    def inserData(session: SparkSession, sc: SparkContext, kuduContext: KuduContext): Unit = {
      //定義資料
      val data = List(person(1, "tom", 30, 1), person(2, "mark", 26, 0))
      val personRDD = sc.makeRDD(data)
      import session.implicits._
      val dataFrame: DataFrame = personRDD.toDF

      kuduContext.insertRows(dataFrame, TABLE_NAME)
    }
  }
}

二、刪除資料delete操作

/**
 * 4）刪除資料
 * @param session
 * @param kuduContext
 */
def deleteData(session: SparkSession, kuduContext: KuduContext): Unit = {
  //定義資料
  val data = List(person(1, "tom", 50, 1), person(2, "mark", 30, 0))

  import session.implicits._
  val dataFrame: DataFrame = data.toDF().select("id")

  kuduContext.deleteRows(dataFrame, TABLE_NAME)
}

三、更新資料upsert操作

/**
 * 3）修改資料
 * @param session
 * @param kuduContext
 */
def upDATEData(session: SparkSession, kuduContext: KuduContext): Unit = {
  //定義資料
  val data = List(person(1, "tom", 50, 1), person(2, "mark", 30, 0))

  import session.implicits._
  val dataFrame: DataFrame = data.toDF()

  kuduContext.upDATERows(dataFrame, TABLE_NAME)
}

本文參與騰訊雲自媒體分享計劃，分享自作者個人站點/部落格。

客快物流大資料專案(四十六)：Spark操作Kudu dataFrame操作kudu
2024-03-30
大資料Spark
客快物流大資料專案(四十四)：Spark操作Kudu建立表
2024-03-30
大資料Spark
客快物流大資料專案(四十二)：Java程式碼操作Kudu
2024-03-29
大資料Java
客快物流大資料專案(五十一)：資料庫表分析物流專案資料庫表設計
2024-03-29
大資料資料庫
MySQL全面瓦解5：資料操作-DML
2020-11-01
MySql
hive從入門到放棄(三)——DML資料操作
2022-03-20
Hive
MYSQL學習筆記4: DML資料操作(增刪改)
2024-03-08
MySql筆記
MsSql 資料庫使用sqlplus建立DDL和DML操作方法
2018-12-27
SQL資料庫
Python操作Redis快取資料庫
2019-05-13
PythonRedis快取資料庫
MsSql資料庫使用SQL plus建立DDL和DML操作方法
2019-01-23
SQL資料庫
PDO操作大資料物件
2021-09-09
大資料物件
SQLServer DML操作阻塞SELECT查詢
2019-10-13
SQLServer
DDL、DML、DCL、DQL相關操作
2020-07-27
Sysbench-0.5改成只有DML操作
2022-10-28
Spark 系列（十四）—— Spark Streaming 基本操作
2019-08-14
Spark
ruby操作專案.xcodeproj
2018-11-28
XCode
MySQL的DDL和DML操作語法
2024-07-27
MySql
究竟先操作快取，還是資料庫？
2018-11-06
快取資料庫
oracle資料庫災難挽救應急方案之DML誤操作恢復
2022-10-20
Oracle資料庫
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
Oracle OCP(11)：操作大資料集
2019-01-23
Oracle大資料
Python操作三大主流資料庫
2019-10-17
Python資料庫
oracle全文索引之commit與DML操作
2019-06-06
Oracle索引MIT
Oracle 檢視可以DML操作的條件
2018-04-28
Oracle
Hazelcast IMDG和Spark 2實現大資料專案 — tomask79
2019-10-15
ASTSpark大資料
想要批次查詢快遞，怎麼操作可以一鍵快速查詢物流資訊
2020-11-02
分析快、易操作的資料分析工具推薦
2023-01-09
Spark操作Hive分割槽表
2018-12-07
SparkHive
Spark操作開窗函式
2019-09-02
Spark函式
Spark Streaming中的Window操作
2020-12-28
Spark
node 之fs 操作檔案？快取Buffer ?
2019-03-04
快取
DML（Data Manipulation Language、資料操作語言），用於新增、刪除、更新和查詢資料庫記
2024-04-02
資料庫
資料庫操作
2020-07-27
資料庫
資料夾操作
2020-10-16
資料庫操作·
2024-08-20
資料庫
python筆記-資料型別&檔案操作
2021-09-09
Python筆記資料型別
大資料系列2：Hdfs的讀寫操作
2021-01-26
大資料
Spark 簡單例項（基本操作）
2018-04-19
Spark單例

客快物流大資料專案(四十五)：Spark操作Kudu DML操作

Spark操作Kudu DML操作

一、插入資料insert操作

二、刪除資料delete操作

三、更新資料upsert操作

相關文章