SparkSQL與Hive metastore Parquet

大資料學習與分享發表於2020-11-03

原文網址 : https://blog.csdn.net/qq_42164977/article/details/109475068

SparkSQLHiveAST

Spark SQL為了更好的效能，在讀寫Hive metastore parquet格式的表時，會預設使用自己的Parquet SerDe，而不是採用Hive的SerDe進行序列化和反序列化。

該行為可以通過配置引數spark.sql.hive.convertMetastoreParquet進行控制，預設true。

這裡從表schema的處理角度而言，就必須注意Hive和Parquet相容性，主要有兩個區別：

Hive是大小寫敏感的，但Parquet相反
Hive會將所有列視為nullable，但是nullability在parquet裡有獨特的意義

由於上面的原因，在將Hive metastore parquet轉化為Spark SQL parquet時，需要相容處理一下Hive和Parquet的schema，即需要對二者的結構進行一致化。主要處理規則是：

有相同名字的欄位必須要有相同的資料型別，忽略nullability。相容處理的欄位應該保持Parquet側的資料型別，這樣就可以處理到nullability型別了（空值問題）
相容處理的schema應只包含在Hive後設資料裡的schema資訊，主要體現在以下兩個方面：

（1）只出現在Parquet schema的欄位會被忽略

（2）只出現在Hive後設資料裡的欄位將會被視為nullable，並處理到相容後的schema中

關於schema（或者說後設資料metastore），Spark SQL在處理Parquet表時，同樣為了更好的效能，會快取Parquet的後設資料資訊。此時，如果我們直接通過Hive或者其他工具對該Parquet表進行修改導致了後設資料的變化，那麼Spark SQL快取的後設資料並不能同步更新，此時需要手動重新整理Spark SQL快取的後設資料，來確保後設資料的一致性，方式如下：

// 第一種方式應用的比較多
1. sparkSession.catalog.refreshTable(s"${dbName.tableName}")
2. sparkSession.catalog.refreshByPath(s"${path}")

SparkSQL讀取Parquet格式的資料載入DatFrame
2020-11-03
SparkSQL
MySQL到TiDB：Hive Metastore橫向擴充套件之路
2023-09-28
MySqlTiDBHiveAST套件
SparkSQL：Parquet資料來源之合併後設資料
2018-09-26
SparkSQL
SparkSQL -- 02 【SparkSQL檔案的讀取與落地，和Hive的整合，內建函式，自定義函式】
2020-11-25
SparkSQLHive函式
（十二）SparkSQL Catalog訪問Hive後設資料資訊
2018-09-26
SparkSQLHive
從Hive遷移到SparkSQL，有讚的大資料實踐
2019-01-10
HiveSparkSQL大資料
SparkSQL部署與簡單使用
2018-08-30
SparkSQL
SparkSql與Redis綜合練習
2020-12-08
SparkSQLRedis
Parquet.Net：將 Apache Parquet 移植到 .NET
2024-09-20
Apache
Spark儲存Parquet資料到Hive，對map、array、struct欄位型別的處理
2020-12-04
SparkHiveStruct型別
SparkSQL 概述
2022-09-12
SparkSQL
Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件
2020-12-03
SparkSQLHive
Spark Parquet詳解
2020-09-29
Spark
SparkSQL 調優
2021-09-09
SparkSQL
SparkSQL手冊
2021-03-26
SparkSQL
建立Parquet結果表
2018-11-14
Hive與Impala的異同
2018-08-20
Hive
Hue--整合Hive與Impala
2021-01-04
Hive
SparkSQL開窗函式
2018-07-30
SparkSQL函式
03-SparkSQL入門
2024-03-23
SparkSQL
SparkSQL 開窗函式
2019-11-15
SparkSQL函式
Hive列合併與元素蒐集
2020-10-24
Hive
Apache Hudi 與 Hive 整合手冊
2021-12-12
ApacheHive
Presto 與 Hive 語法學習
2022-04-16
RESTHive
CodeForces - 26C Parquet【構造】
2020-11-07
SparkSQL 在有讚的實踐
2019-01-16
SparkSQL
SparkSQL外部資料來源
2018-09-06
SparkSQL
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL
SparkSql 06 開窗函式
2019-12-31
SparkSQL函式
Hive 與 ElasticSearch 的資料互動
2019-01-27
HiveElasticsearch
Apache Hive-2.3.0 快速搭建與使用
2019-03-01
ApacheHive
Flink生成Parquet格式檔案實戰
2019-02-24
解析Pyspark如何讀取parquet資料
2020-04-15
Spark
大資料小視角2：ORCFile與Parquet，開源圈背後的生意
2018-05-25
大資料
05-快速理解SparkSQL的DataSet
2024-03-24
SparkSQL
Hive --------- hive 的優化
2018-11-12
Hive優化
[Hive]Hive排序優化
2018-08-15
Hive排序優化
Python中讀寫Parquet檔案的方法
2024-05-13
Python

SparkSQL與Hive metastore Parquet

相關文章