Spark SQL：Parquet資料來源之自動分割槽推斷

豐澤發表於2018-09-26

原文網址 : https://juejin.im/post/5bab3def5188255c7566d1c3

自動分割槽推斷（一）

表分割槽是一種常見的優化方式，比如Hive中就提供了表分割槽的特性。在一個分割槽表中，不同分割槽的資料通常儲存在不同的目錄中，分割槽列的值通常就包含在了分割槽目錄的目錄名中。Spark SQL中的Parquet資料來源，支援自動根據目錄名推斷出分割槽資訊。例如，如果將人口資料儲存在分割槽表中，並且使用性別和國家作為分割槽列。那麼目錄結構可能如下所示：

tableName
  |- gender=male
    |- country=US
      ...
      ...
      ...
    |- country=CN
      ...
  |- gender=female
    |- country=US
      ...
    |- country=CH
      ... 
      
複製程式碼

自動分割槽推斷（二）

如果將/tableName傳入SQLContext.read.parquet()或者SQLContext.read.load()方法，那麼Spark SQL就會自動根據目錄結構，推斷出分割槽資訊，是gender和country。即使資料檔案中只包含了兩列值，name和age，但是Spark SQL返回的DataFrame，呼叫printSchema()方法時，會列印出四個列的值：name，age，country，gender。這就是自動分割槽推斷的功能。

此外，分割槽列的資料型別，也是自動被推斷出來的。目前，Spark SQL僅支援自動推斷出數字型別和字串型別。有時，使用者也許不希望Spark SQL自動推斷分割槽列的資料型別。此時只要設定一個配置即可， spark.sql.sources.partitionColumnTypeInference.enabled，預設為true，即自動推斷分割槽列的型別，設定為false，即不會自動推斷型別。禁止自動推斷分割槽列的型別時，所有分割槽列的型別，就統一預設都是String。

程式碼：

package com.etc;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;

/**
 * @author: fengze
 * @description:
 * Parquet資料來源之自動推斷分割槽
 * 有時我們可能並不想spark sql對資料進行自動分割槽，
 * 那麼我們可以通過spark.sql.sources.partitionColumnTypeInference.enabled進行設定
 * 預設情況下它的值為true;
 */
public class ParquetPartitionDiscovery {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf()
                .setAppName("ParquetPartitionDiscovery")
                .setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        DataFrame json = sqlContext.read().json("D:\\Documents\\Tencent Files\\1433214538\\FileRecv\\第一階段程式碼\\第76講-Spark SQL：資料來源之通用的load和save操作\\文件\\people.json");

        json.printSchema();
        json.show();
        //root
        // |-- age: long (nullable = true)
        // |-- name: string (nullable = true)
    }
}

複製程式碼

SparkSQL：Parquet資料來源之合併後設資料
2018-09-26
SparkSQL
Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件
2020-12-03
SparkSQLHive
分割槽表之自動增加分割槽（11G）
2018-04-26
MySql資料分割槽操作之新增分割槽操作
2021-09-09
MySql
Spark 3.0 新特性之自適應查詢與分割槽動態裁剪
2020-07-26
Spark
資料來源Parquet之使用程式設計方式載入資料
2018-09-26
程式設計
Spark SQL外部資料來源與實現機制
2019-08-14
SparkSQL
深入原始碼理解Spark RDD的資料分割槽原理
2020-08-20
原始碼Spark
Spark操作Hive分割槽表
2018-12-07
SparkHive
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Oracle12c：建立主分割槽、子分割槽，實現自動分割槽插入效果
2020-04-04
Oracle
Spark SQL：JSON資料來源複雜綜合案例實戰
2018-09-28
SparkSQLJSON
Spark SQL：Hive資料來源複雜綜合案例實戰
2018-09-28
SparkSQLHive
Spark SQL：JDBC資料來源複雜綜合案例實戰
2018-09-28
SparkSQLJDBC
hive 動態分割槽插入資料表
2020-12-18
Hive
Spark學習——分割槽Partition數
2019-04-03
Spark
hive Sql的動態分割槽問題
2024-04-01
HiveSQL
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
讀取oracle long型別及判斷是否自動分割槽表
2019-02-23
Oracle型別
好程式設計師大資料開發之掌握Hive的靜態分割槽與動態分割槽
2019-03-29
程式設計師大資料Hive
應用推薦：開源磁碟分割槽工具 GParted
2020-01-10
Spark Parquet詳解
2020-09-29
Spark
Apache Spark：分割槽和分桶 - Nivedita
2022-05-30
ApacheSpark
SQL SERVER之分割槽表
2019-04-17
SQLServer
Linux磁碟分割槽及自動掛載
2020-12-28
Linux
spark streaming執行kafka資料來源
2020-11-14
SparkKafka
Spark獲取當前分割槽的partitionId
2021-09-09
Spark
調整分割槽後分割槽不見的資料找到方法
2022-06-14
HGDB的分割槽表實現SQL Server的分割槽檢視
2021-11-22
SQLServer
SQL優化案例-分割槽索引之無字首索引（六）
2018-08-21
SQL優化索引
Hive的靜態分割槽與動態分割槽
2018-05-03
Hive
SQL Server大分割槽表沒有空分割槽的情況下如何擴充套件分割槽的方法
2022-09-30
SQLServer套件
聊聊Spark的分割槽、並行度 —— 前奏篇
2020-11-17
Spark並行
spark-運算元-分割槽運算元
2020-11-05
Spark
SQL最佳化案例-分割槽索引之無字首索引（六）
2018-11-28
SQL索引
分割槽丟失資料恢復
2024-06-19
資料恢復
MySQL資料表分割槽手記
2021-05-03
MySql
Linux硬碟分割槽及開機自動掛載
2019-11-28
Linux硬碟

Spark SQL：Parquet資料來源之自動分割槽推斷

自動分割槽推斷（一）

自動分割槽推斷（二）

程式碼：

相關文章