SparkSQL讀取Parquet格式的資料載入DatFrame
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
/**
-
讀取Parquet格式的資料載入DataFrame
-
注意:
-
1).parquet是一種列式儲存格式,預設是有壓縮。Spark中常用的一種資料格式
-
2).讀取Parquet格式的資料兩種方式
-
3).可以將DataFrame儲存成Json或者Pauquet格式資料,注意儲存模式
*/
object ReadParquetFileToDF {
def main(args: Array[String]): Unit = {
val session: SparkSession = SparkSession.builder()
.master(“local”)
.appName(“ReadParquetFileToDF”)
.getOrCreate()session.sparkContext.setLogLevel(“Error”)
val frame: DataFrame = session.read.json(“T:/code/spark_scala/data/spark/jsondata”)/**
- SaveMode:
- Append: 追加寫資料
- ErrorIfExists : 存在就報錯
- Ignore : 忽略
- Overwrite : 覆蓋寫資料
*/
frame.write.mode(SaveMode.Overwrite).parquet(“T:/code/spark_scala/data/spark/parquet”)
//讀取Parquet格式的資料載入DataFrame
val df = session.read.format(“parquet”).load(“T:/code/spark_scala/data/spark/parquet”)
// df.write.json(“T:/code/spark_scala/data/spark/resultJson”)
df.show(100)
val l: Long = df.count()
println(s"total count = $l")
}
}
相關文章
- 解析Pyspark如何讀取parquet資料Spark
- SparkSQL:Parquet資料來源之合併後設資料SparkSQL
- SparkSQL與Hive metastore ParquetSparkSQLHiveAST
- 資料來源Parquet之使用程式設計方式載入資料程式設計
- Python中Spark讀取parquet檔案並獲取schema的JSON表示PythonSparkJSON
- 大資料檔案格式比較:AVRO vs. PARQUET vs. ORC大資料VR
- SparkSQL -- 02 【SparkSQL檔案的讀取與落地,和Hive的整合,內建函式,自定義函式】SparkSQLHive函式
- Flink生成Parquet格式檔案實戰
- SparkSQL外部資料來源SparkSQL
- python讀取json格式的標註PythonJSON
- spark讀取hbase的資料Spark
- 08 常用:寫入 讀取檔案格式為:alex|123
- Logstash讀取Kafka資料寫入HDFS詳解Kafka
- 想獲取JS載入網頁的源網頁的原始碼,不想獲取JS載入後的資料JS網頁原始碼
- 讀取JSON資料JSON
- 讀取CSV資料
- Androidxml資料的讀取和寫入(sax,pull,dom,xstream,jsoup)AndroidXMLJS
- php讀取excel檔案資料的匯入和匯出PHPExcel
- SparkSQL,如何將DataFrame轉為json格式SparkSQLJSON
- Python中讀寫Parquet檔案的方法Python
- 用 logstash 從 kafka 讀取資料寫入 Elasticsearch(qbit)KafkaElasticsearch
- Flink 實踐教程-入門(6):讀取 PG 資料寫入 ClickHouse
- Laravel 原始碼閱讀指南 -- 載入和讀取 ENV 配置Laravel原始碼
- dotnet OpenXML 讀取 PPT 內嵌 ole 格式 Excel 表格的資訊XMLExcel
- 資料的讀取和寫入,其中Reader便是其中之一
- python讀取MySQL資料PythonMySql
- Spark讀取MySQL資料SparkMySql
- Jsp讀取MySQL資料JSMySql
- sqlserver讀取oracle資料庫資料SQLServerOracle資料庫
- 利用反射讀取資料庫資料反射資料庫
- Spark原始碼編譯支援Parquet儲存格式Spark原始碼編譯
- 03-SparkSQL入門SparkSQL
- 資料載入
- 使用 jQuery 讀取 Vue 元件的資料jQueryVue元件
- Flink 實踐教程 - 入門(4):讀取 MySQL 資料寫入到 ESMySql
- eazyexcel 讀取excel資料插入資料庫Excel資料庫
- YApi 匯入 Swagger YAML 格式資料APISwaggerYAML
- python讀取串列埠 資料Python串列埠