SparkSQL讀取Parquet格式的資料載入DatFrame

yj2434發表於2020-11-03

原文網址 : https://blog.csdn.net/yj2434/article/details/109482133

SparkSQL

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

/**

讀取Parquet格式的資料載入DataFrame
注意：
1).parquet是一種列式儲存格式，預設是有壓縮。Spark中常用的一種資料格式
2).讀取Parquet格式的資料兩種方式
3).可以將DataFrame儲存成Json或者Pauquet格式資料,注意儲存模式
*/
object ReadParquetFileToDF {
def main(args: Array[String]): Unit = {
val session: SparkSession = SparkSession.builder()
.master(“local”)
.appName(“ReadParquetFileToDF”)
.getOrCreate()

session.sparkContext.setLogLevel(“Error”)
val frame: DataFrame = session.read.json(“T:/code/spark_scala/data/spark/jsondata”)

/**
- SaveMode:
- Append: 追加寫資料
- ErrorIfExists : 存在就報錯
- Ignore : 忽略
- Overwrite : 覆蓋寫資料
  */
  frame.write.mode(SaveMode.Overwrite).parquet(“T:/code/spark_scala/data/spark/parquet”)
  //讀取Parquet格式的資料載入DataFrame
  val df = session.read.format(“parquet”).load(“T:/code/spark_scala/data/spark/parquet”)
  // df.write.json(“T:/code/spark_scala/data/spark/resultJson”)
  df.show(100)
  val l: Long = df.count()
  println(s"total count = $l")
  }
  }

解析Pyspark如何讀取parquet資料
2020-04-15
Spark
SparkSQL：Parquet資料來源之合併後設資料
2018-09-26
SparkSQL
SparkSQL與Hive metastore Parquet
2020-11-03
SparkSQLHiveAST
資料來源Parquet之使用程式設計方式載入資料
2018-09-26
程式設計
Python中Spark讀取parquet檔案並獲取schema的JSON表示
2024-03-07
PythonSparkJSON
大資料檔案格式比較：AVRO vs. PARQUET vs. ORC
2022-01-20
大資料VR
SparkSQL -- 02 【SparkSQL檔案的讀取與落地，和Hive的整合，內建函式，自定義函式】
2020-11-25
SparkSQLHive函式
SparkSQL外部資料來源
2018-09-06
SparkSQL
Flink生成Parquet格式檔案實戰
2019-02-24
python讀取json格式的標註
2024-04-25
PythonJSON
08 常用：寫入讀取檔案格式為：alex|123
2024-09-28
spark讀取hbase的資料
2019-04-05
Spark
Logstash讀取Kafka資料寫入HDFS詳解
2019-03-20
Kafka
讀取JSON資料
2020-10-12
JSON
讀取CSV資料
2020-10-12
想獲取JS載入網頁的源網頁的原始碼，不想獲取JS載入後的資料
2024-04-10
JS網頁原始碼
Androidxml資料的讀取和寫入（sax,pull,dom,xstream,jsoup）
2018-08-23
AndroidXMLJS
php讀取excel檔案資料的匯入和匯出
2018-06-09
PHPExcel
SparkSQL，如何將DataFrame轉為json格式
2018-12-06
SparkSQLJSON
Python中讀寫Parquet檔案的方法
2024-05-13
Python
用 logstash 從 kafka 讀取資料寫入 Elasticsearch（qbit）
2022-02-03
KafkaElasticsearch
Flink 實踐教程-入門（6）：讀取 PG 資料寫入 ClickHouse
2021-11-14
dotnet OpenXML 讀取 PPT 內嵌 ole 格式 Excel 表格的資訊
2021-09-02
XMLExcel
Laravel 原始碼閱讀指南 -- 載入和讀取 ENV 配置
2018-10-22
Laravel原始碼
資料的讀取和寫入，其中Reader便是其中之一
2024-08-31
Jsp讀取MySQL資料
2018-12-30
JSMySql
python讀取MySQL資料
2021-01-02
PythonMySql
Spark讀取MySQL資料
2020-12-31
SparkMySql
sqlserver讀取oracle資料庫資料
2024-03-11
SQLServerOracle資料庫
利用反射讀取資料庫資料
2020-04-04
反射資料庫
Spark原始碼編譯支援Parquet儲存格式
2019-03-05
Spark原始碼編譯
03-SparkSQL入門
2024-03-23
SparkSQL
使用 jQuery 讀取 Vue 元件的資料
2018-12-31
jQueryVue元件
Flink 實踐教程 - 入門（4）：讀取 MySQL 資料寫入到 ES
2021-11-09
MySql
資料載入
2019-05-15
eazyexcel 讀取excel資料插入資料庫
2020-11-04
Excel資料庫
YApi 匯入 Swagger YAML 格式資料
2020-11-02
APISwaggerYAML
Python讀取YAML配置資料
2024-05-22
PythonYAML

SparkSQL讀取Parquet格式的資料載入DatFrame

相關文章