SparkSQL讀取Parquet格式的資料載入DatFrame
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
/**
-
讀取Parquet格式的資料載入DataFrame
-
注意:
-
1).parquet是一種列式儲存格式,預設是有壓縮。Spark中常用的一種資料格式
-
2).讀取Parquet格式的資料兩種方式
-
3).可以將DataFrame儲存成Json或者Pauquet格式資料,注意儲存模式
*/
object ReadParquetFileToDF {
def main(args: Array[String]): Unit = {
val session: SparkSession = SparkSession.builder()
.master(“local”)
.appName(“ReadParquetFileToDF”)
.getOrCreate()session.sparkContext.setLogLevel(“Error”)
val frame: DataFrame = session.read.json(“T:/code/spark_scala/data/spark/jsondata”)/**
- SaveMode:
- Append: 追加寫資料
- ErrorIfExists : 存在就報錯
- Ignore : 忽略
- Overwrite : 覆蓋寫資料
*/
frame.write.mode(SaveMode.Overwrite).parquet(“T:/code/spark_scala/data/spark/parquet”)
//讀取Parquet格式的資料載入DataFrame
val df = session.read.format(“parquet”).load(“T:/code/spark_scala/data/spark/parquet”)
// df.write.json(“T:/code/spark_scala/data/spark/resultJson”)
df.show(100)
val l: Long = df.count()
println(s"total count = $l")
}
}
相關文章
- 解析Pyspark如何讀取parquet資料Spark
- SparkSQL:Parquet資料來源之合併後設資料SparkSQL
- SparkSQL與Hive metastore ParquetSparkSQLHiveAST
- 資料來源Parquet之使用程式設計方式載入資料程式設計
- 大資料檔案格式比較:AVRO vs. PARQUET vs. ORC大資料VR
- Python中Spark讀取parquet檔案並獲取schema的JSON表示PythonSparkJSON
- 測試TOM==SQLLDR載入固定格式資料SQL
- SparkSQL -- 02 【SparkSQL檔案的讀取與落地,和Hive的整合,內建函式,自定義函式】SparkSQLHive函式
- SparkSQL外部資料來源SparkSQL
- Flink生成Parquet格式檔案實戰
- spark讀取hbase的資料Spark
- 讀取CSV資料
- excel 資料讀取Excel
- 想獲取JS載入網頁的源網頁的原始碼,不想獲取JS載入後的資料JS網頁原始碼
- php讀取excel檔案資料的匯入和匯出PHPExcel
- Spark原始碼編譯支援Parquet儲存格式Spark原始碼編譯
- Logstash讀取Kafka資料寫入HDFS詳解Kafka
- Python中讀寫Parquet檔案的方法Python
- QTP讀取Excel資料的方法QTExcel
- jQuery遍歷讀取json格式資料簡單程式碼例項jQueryJSON
- ArcEngine中載入和讀取Style檔案
- 03-SparkSQL入門SparkSQL
- phpexcel讀取excel的xls xlsx csv格式PHPExcel
- Laravel 原始碼閱讀指南 -- 載入和讀取 ENV 配置Laravel原始碼
- SparkSQL,如何將DataFrame轉為json格式SparkSQLJSON
- Spark讀取MySQL資料SparkMySql
- 讀取JSON資料JSON
- PHPExcel讀取excel資料PHPExcel
- 讀取DXF格式檔案 (轉)
- 利用反射讀取資料庫資料反射資料庫
- sqlserver讀取oracle資料庫資料SQLServerOracle資料庫
- 資料載入
- 用 logstash 從 kafka 讀取資料寫入 Elasticsearch(qbit)KafkaElasticsearch
- 08 常用:寫入 讀取檔案格式為:alex|123
- Flink 實踐教程-入門(6):讀取 PG 資料寫入 ClickHouse
- 讀取載密Excel表格中壓縮原始檔資料區Excel
- 使用 jQuery 讀取 Vue 元件的資料jQueryVue元件
- python讀取json格式的標註PythonJSON