Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

大資料學習與分享發表於2020-12-03

原文網址 : https://www.cnblogs.com/bigdatalearnshare/p/14052505.html

SparkSQLHive

首先說一下，這裡解決的問題應用場景：

sparksql處理Hive表資料時，判斷載入的是否是分割槽表，以及分割槽表的欄位有哪些？再進一步限制查詢分割槽表必須指定分割槽？

這裡涉及到兩種情況：select SQL查詢和載入Hive表路徑的方式。這裡僅就"載入Hive表路徑的方式"解析分割槽表欄位，在處理時出現的一些問題及解決作出詳細說明。

如果大家有類似的需求，筆者建議通過解析Spark SQL logical plan和下面說的這種方式解決方案結合，封裝成一個通用的工具。

問題現象

sparksql載入指定Hive分割槽表路徑，生成的DataSet沒有分割槽欄位。

如，

sparkSession.read.format("parquet").load(s"${hive_path}")，hive_path為Hive分割槽表在HDFS上的儲存路徑。

hive_path的幾種指定方式會導致這種情況的發生（test_partition是一個Hive外部分割槽表，dt是它的分割槽欄位，分割槽資料有dt為20200101和20200102）:

1. hive_path為"/spark/dw/test.db/test_partition/dt=20200101"

2. hive_path為"/spark/dw/test.db/test_partition/*"

因為牽涉到的原始碼比較多，這裡僅以示例的程式中涉及到的原始碼中的class、object和方法，繪製成xmind圖如下，想細心研究的可以參考該圖到spark原始碼中進行分析。

問題分析

我這裡主要給出幾個原始碼段，結合上述xmind圖理解：

在沒有指定引數basePath的情況下：

1. hive_path為/spark/dw/test.db/test_partition/dt=20200101

sparksql底層處理後得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【虛擬碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”))【虛擬碼】

2. hive_path為/spark/dw/test.db/test_partition/*

sparksql底層處理後得到的basePaths: Set(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【虛擬碼】

leafDirs: Seq(new Path(“/spark/dw/test.db/test_partition/dt=20200101”),new Path(“/spark/dw/test.db/test_partition/dt=20200102”))【虛擬碼】

這兩種情況導致原始碼if(basePaths.contains(currentPath))為true，還沒有解析分割槽就重置變數finished為true跳出迴圈，因此最終生成的結果也就沒有分割槽欄位：

解決方案（親測有效）

1. 在Spark SQL載入Hive表資料路徑時，指定引數basePath，如

sparkSession.read.option("basePath","/spark/dw/test.db/test_partition")

2. 主要重寫basePaths方法和parsePartition方法中的處理邏輯，同時需要修改其他涉及的程式碼。由於涉及需要改寫的程式碼比較多，可以封裝成工具

關聯文章：

Spark SQL

Apache Hive

必須掌握的分散式檔案儲存系統—HDFS

SQL Server 查詢表註釋和欄位
2020-12-07
SQLServer
ArcGIS對欄位分割查詢操作
2020-10-19
SQL-基礎語法 - 條件查詢 - 模糊查詢
2024-12-04
SQL
查詢/刪除重複的資料(單個欄位和多個欄位條件)
2020-11-21
Spark操作Hive分割槽表
2018-12-07
SparkHive
mysql條件查詢
2024-04-06
MySql
MongoDB查詢條件
2018-04-27
MongoDB
SQL查詢的：子查詢和多表查詢
2020-11-18
SQL
hive將查詢資料插入表中某欄位無資料
2020-10-25
Hive
查詢資料庫表及表欄位
2024-12-05
資料庫
Laravel Query Builder 複雜查詢案例：子查詢實現分割槽查詢 partition by
2018-11-27
LaravelUI
在 with 查詢中只查詢個別欄位
2018-09-19
[20201224]order by欄位順序與查詢條件為NULL.txt
2020-12-25
Null
Oracle查詢Interval partition分割槽表內資料
2018-11-17
Oracle
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Laravel 多條件查詢
2020-04-22
Laravel
20240719資料庫關聯查詢、條件查詢
2024-07-19
資料庫
34. 過濾條件、多表查詢、子查詢
2024-10-28
Elasticsearch 複合查詢——多字串多欄位查詢
2021-03-14
Elasticsearch字串
揭秘PostgreSQL：如何查詢表欄位名稱
2024-06-03
SQL
Native for sql 查詢列欄位非命令列形式
2018-03-21
SQL命令列
mysql 5.7.11查詢分割槽表的一個問題
2018-08-10
MySql
SpringBoot Jpa多條件查詢
2024-05-01
Spring Boot
AntDesignBlazor示例——列表查詢條件
2023-12-03
Blazor
golang beego orm 查詢條件 or and
2020-11-11
GolangORM
Javaweb-DQL-條件查詢
2024-09-07
JavaWeb
查詢條件封裝物件
2024-06-27
封裝物件
mongodb條件查詢不等於
2021-09-11
MongoDB
【mybatis-plus】條件查詢
2020-12-29
MyBatis
同一欄位多個查詢條件時遇到的一個問題
2019-11-29
寫一個“特殊”的查詢構造器 – (四、條件查詢：複雜條件)
2019-02-16
報表查詢條件的 N 種使用方式
2019-12-10
根據查詢條件批量修改表資料
2019-07-11
SQL Server解惑——查詢條件IN中能否使用變數
2021-01-18
SQLServer變數
mysql多條件過濾查詢之mysq高階查詢
2021-12-30
MySql
Mysql 獲取表設計查詢語句
2019-01-19
MySql
Spark 3.0 新特性之自適應查詢與分割槽動態裁剪
2020-07-26
Spark
Linq查詢之多個排序條件
2018-06-21
排序

Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件

相關文章