客快物流大資料專案(四十四)：Spark操作Kudu建立表

十一vs十一發表於2024-03-30

原文網址 : https://www.cnblogs.com/shan13936/p/18104917

Spark操作Kudu建立表

Spark與KUDU整合支援：
- DDL操作（建立/刪除）
- 本地Kudu RDD
- Native Kudu資料來源，用於DataFrame整合
- 從kudu讀取資料
- 從Kudu執行插入/更新/ upsert /刪除
- 謂詞下推
- Kudu和Spark SQL之間的模式對映
- 到目前為止，我們已經聽說過幾個上下文，例如SparkContext，SQLContext，HiveContext， SparkSession，現在，我們將使用Kudu引入一個KuduContext。這是可以在Spark應用程式中廣播的主要可序列化物件。此類代表在Spark執行程式中與Kudu Java客戶端進行互動。
- KuduContext提供執行DDL操作所需的方法，與本機Kudu RDD的介面，對資料執行更新/插入/刪除，將資料型別從Kudu轉換為Spark等。

建立表

定義kudu的表需要分成5個步驟：
- 提供表名
- 提供schema
- 提供主鍵
- 定義重要選項；例如：定義分割槽的schema
- 呼叫create Table api
程式碼開發

package cn.it

import java.util
import cn.it.SparkKuduDemo.TABLE_NAME
import org.apache.kudu.client.CreateTableOptions
import org.apache.kudu.spark.kudu.KuduContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

object SparkKuduTest {
  def main(args: Array[String]): Unit = {
    //構建sparkConf物件
    val sparkConf: SparkConf = new SparkConf().setAppName("SparkKuduTest").setMaster("local[2]")

    //構建SparkSession物件
    val sparkSession: SparkSession = SparkSession.builder().config(sparkConf).getOrCreate()

    //獲取sparkContext物件
    val sc: SparkContext = sparkSession.sparkContext
    sc.setLogLevel("warn")

    //構建KuduContext物件
    val kuduContext = new KuduContext("node2:7051", sc)

    //1.建立表操作
    createTable(kuduContext)

    /**
     * 建立表
     *
     * @param kuduContext
     * @return
     */
    def createTable(kuduContext: KuduContext) = {
      //如果表不存在就去建立
      if (!kuduContext.tableExists(TABLE_NAME)) {

        //構建建立表的表結構資訊,就是定義表的欄位和型別
        val schema: StructType = StructType(
          StructField("userId", StringType, false) ::
            StructField("name", StringType, false) ::
            StructField("age", IntegerType, false) ::
            StructField("sex", StringType, false) :: Nil)

        //指定表的主鍵欄位
        val keys = List("userId")

        //指定建立表所需要的相關屬性
        val options: CreateTableOptions = new CreateTableOptions
        //定義分割槽的欄位
        val partitionList = new util.ArrayList[String]
        partitionList.add("userId")
        //新增分割槽方式為hash分割槽
        options.addHashPartitions(partitionList, 6)

        //建立表
        kuduContext.createTable(TABLE_NAME, schema, keys, options)
      }
    }
  }
}

定義表時要注意的是Kudu表選項值。你會注意到在指定組成範圍分割槽列的列名列表時我們呼叫“asJava”方法。這是因為在這裡，我們呼叫了Kudu Java客戶端本身，它需要Java物件（即java.util.List）而不是Scala的List對象；（要使“asJava”方法可用，請記住匯入JavaConverters庫。）建立表後，透過將瀏覽器指向http//master主機名:8051/tables

來檢視Kudu主UI可以找到建立的表，透過單擊表ID，能夠看到表模式和分割槽資訊。

點選Table id 可以觀察到表的schema等資訊：

客快物流大資料專案(四十六)：Spark操作Kudu dataFrame操作kudu
2024-03-30
大資料Spark
客快物流大資料專案(四十五)：Spark操作Kudu DML操作
2024-03-30
大資料Spark
客快物流大資料專案(四十二)：Java程式碼操作Kudu
2024-03-29
大資料Java
客快物流大資料專案(五十一)：資料庫表分析物流專案資料庫表設計
2024-03-29
大資料資料庫
將資料匯入kudu表（建立臨時hive表，從hive匯入kudu）步驟
2020-09-24
Hive
專案資料庫表設計與建立模型
2019-04-04
資料庫模型
Hazelcast IMDG和Spark 2實現大資料專案 — tomask79
2019-10-15
ASTSpark大資料
2.5.9 在資料庫建立期間支援大檔案表空間
2020-03-05
資料庫
Spark操作Hive分割槽表
2018-12-07
SparkHive
大資料架構師必讀：常見的七種Hadoop和Spark專案案例
2018-07-28
大資料架構HadoopSpark
好程式設計師大資料培訓分享常見的Hadoop和Spark專案
2020-11-05
程式設計師大資料HadoopSpark
[20190410]dg建立臨時表檔案資料檔案.txt
2019-04-10
建立資料庫表
2020-07-23
資料庫
建立SQL資料表
2020-10-21
SQL
laravel 建立資料表
2020-11-26
Laravel
springboot對接spark大資料
2024-04-17
Spring BootSpark大資料
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
MySQL 資料表操作
2020-08-30
MySql
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
XamarinSQLite教程建立資料表
2018-07-26
SQLite
資料庫建立 3表
2024-08-27
資料庫
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
[大資料] Spark架構詳解
2018-08-02
大資料Spark架構
大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
KUDU 1.7.0-CDH5.15.1-0 版本中客戶端kudu 命令缺少rebalance 子命令.
2020-02-27
H5客戶端
＜Zhuuu_ZZ＞Spark專案之log日誌資料分析處理
2020-11-19
Spark
Python操作Redis快取資料庫
2019-05-13
PythonRedis快取資料庫
機器學習專案 - 使用 Apache Spark 建立電影推薦引擎
2021-12-24
機器學習ApacheSpark
快遞物流資訊訂閱與推送API：打造高效的快遞物流資訊服務
2024-02-21
API
Springboot專案啟動後自動建立多表關聯的資料庫與表的方案
2021-03-16
Spring Boot資料庫
SQL建立資料庫和表
2020-10-19
SQL資料庫
KUDU(五)kudu優化
2020-10-20
優化
VisualEffectGraph基礎操作 --建立VEG專案步驟講解
2021-07-20
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
表空間與資料檔案的offline和online操作
2018-03-10
大資料爬蟲專案實戰教程
2018-11-14
大資料爬蟲
加班做報表被嘲低效！快用大資料分析工具
2023-11-23
大資料
建立細分客戶的無監督學習專案
2019-05-02

客快物流大資料專案(四十四)：Spark操作Kudu建立表

Spark操作Kudu建立表

建立表

相關文章