05-快速理解SparkSQL的DataSet

公众号-JavaEdge發表於2024-03-24

原文網址 : https://www.cnblogs.com/JavaEdge/p/18093268

1 定義

一個資料集是分散式的資料集合。Spark 1.6增加新介面Dataset，提供

RDD的優點：強型別、能夠使用強大lambda函式
Spark SQL最佳化執行引擎的優點

可從JVM物件構造Dataset，然後函式式轉換（map、flatMap、filter等）操作。Dataset API在Scala和Java中可用。

Python不支援Dataset API，但由於Python動態性質，許多Dataset API優點已經能使用（可透過名稱自然訪問行的欄位row.columnName）。R的情況類似。

Python支援DataFrame API是因為DataFrame API是基於Python#Pandas庫構建，而Pandas庫提供強大易用的資料分析工具集。因此，Spark提供對Pandas DataFrame物件的支援，使Python使用DataFrame API非常方便。Python的Pandas也提供強型別保證，使Spark可在保持動態特性同時提供型別檢查和型別推斷。因此，雖Python不支援Spark的Dataset API，但它支援Spark的DataFrame API，這為Python使用者提供一種方便的資料處理方式。

2 案例

package com.javaedge.bigdata.cp04

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object DatasetApp {

  def main(args: Array[String]): Unit = {
    val projectRootPath = "/Users/javaedge/Downloads/soft/sparksql-train"
    val spark = SparkSession.builder()
      .master("local").appName("DatasetApp")
      .getOrCreate()
    import spark.implicits._

    // 建立一個包含一條記錄的Seq，這條記錄包含一個名為 "JavaEdge" 年齡為 18 的人員資訊
    val ds: Dataset[Person] = Seq(Person("JavaEdge", "18"))
      // 將Seq轉換為一個Dataset[Person]型別資料集，該資料集只包含一條記錄
      .toDS()
    ds.show()

    val primitiveDS: Dataset[Int] = Seq(1, 2, 3).toDS()
    primitiveDS.map(x => x + 1).collect().foreach(println)

    val peopleDF: DataFrame = spark.read.json(projectRootPath + "/data/people.json")
    val peopleDS: Dataset[Person] = peopleDF.as[Person]
    peopleDS.show(false)
    peopleDF.select("name").show()
    peopleDS.map(x => x.name).show()

    spark.stop()
  }

  /**
   * 自定義的 case class，其中包含兩個屬性
   */
  private case class Person(name: String, age: String)

}

output：
+--------+---+
|    name|age|
+--------+---+
|JavaEdge| 18|
+--------+---+

2
3
4
+----+-------+
|age |name   |
+----+-------+
|null|Michael|
|30  |Andy   |
|19  |Justin |
+----+-------+

+-------+
|   name|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

+-------+
|  value|
+-------+
|Michael|
|   Andy|
| Justin|
+-------+

3 DataFrame V.S Dataset

val peopleDF: DataFrame = spark.read.json(projectRootPath + "/data/people.json")
val peopleDS: Dataset[Person] = peopleDF.as[Person]
peopleDS.show(false)

// 弱語言型別，執行時才報錯
peopleDF.select("nameEdge").show()

編譯期報錯：

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出！

《深入理解Spark》之sparkSQL 處理流程
2018-10-11
SparkSQL
tf.data.Dataset.shuffle(buffer_size)中buffer_size的理解
2018-08-28
SparkSQL 概述
2022-09-12
SparkSQL
JavaScript dataset
2018-12-05
JavaScript
Dataset和Dataloader的使用
2023-01-05
快速排序的簡單理解
2022-06-23
排序
SparkSQL 在有讚的實踐
2019-01-16
SparkSQL
SparkSQL 調優
2021-09-09
SparkSQL
SparkSQL手冊
2021-03-26
SparkSQL
【Dataset】Maple-IDS - Network Security Malicious Traffic Detection Dataset
2024-07-15
flink batch dataset 的基本操作
2019-01-23
BAT
Mmdetection dataset pipline
2023-04-15
tensorflow dataset API
2020-12-18
API
05-表操作
2020-04-07
Pytorch Dataset入門
2024-04-16
PyTorch
image-classification-dataset
2024-06-23
05-待填坑...
2020-11-22
pandas 05-變形
2020-12-27
SparkSQL中的UDF、UDAF、UDTF實現
2020-11-08
SparkSQL
快速理解HBase和BigTable
2018-10-30
SparkSQL開窗函式
2018-07-30
SparkSQL函式
03-SparkSQL入門
2024-03-23
SparkSQL
SparkSQL 開窗函式
2019-11-15
SparkSQL函式
SparkSQL與Hive metastore Parquet
2020-11-03
SparkSQLHiveAST
快速理解MySQL null的10大坑
2024-05-19
MySqlNull
快速理解容器技術的實現原理
2023-02-10
SparkSQL -- 02 【SparkSQL檔案的讀取與落地，和Hive的整合，內建函式，自定義函式】
2020-11-25
SparkSQLHive函式
05-行內函數
2019-02-08
函數
05-常用選擇器
2024-06-11
05-資料型別
2023-03-14
資料型別
05-樹9 Huffman Codes
2020-12-05
快速理解 volatile 關鍵字
2019-03-30
快速理解併發、並行
2019-04-21
並行
Flink的DataSet基本運算元總結
2020-10-15
Pytorch建模過程中的DataLoader與Dataset
2023-01-04
PyTorch
SparkSQL外部資料來源
2018-09-06
SparkSQL
SparkSQL部署與簡單使用
2018-08-30
SparkSQL
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL

05-快速理解SparkSQL的DataSet

1 定義

2 案例

3 DataFrame V.S Dataset

相關文章