Spark原始碼編譯支援Parquet儲存格式

逝水-無痕發表於2019-03-05

原文網址 : https://blog.csdn.net/wangkai_123456/article/details/88196770

文章目錄

Spark配置

Spark原始碼編譯

Spark原始碼編譯方式部署Spark時，為了支援Parquet功能，需要在原始碼編譯時指定支援Parquet功能（即在編譯命令中帶上”parquet-provided“引數），具體的編譯命令如下：

./dev/make-distribution.sh --name "hadoop310-without-hive" --tgz "-Pyarn,-Phadoop-3.1,-Dhadoop.version=3.1.0,parquet-provided,orc-provided"

具體Spark的部署可以參考：https://blog.csdn.net/wangkai_123456/article/details/87348161#3Spark_25

Hadoop-Parquet相關jar包下載

查詢與系統（此處以hive為例）的parquet版本號

環境資訊：
hadoop版本：3.1.0
spark版本：2.3.3
hive版本：3.1.1
為了保證Parquet的jar包與版本的相容性，可以在hive原始碼根目錄下的pom.xml檔案中檢視與hive相相容的parquet版本號，查詢parquet.version，以hive-3.1.1為例，查詢的結果如下：

    <parquet.version>1.10.0</parquet.version>
    <pig.version>0.16.0</pig.version>
    <plexus.version>1.5.6</plexus.version>
    <protobuf.version>2.5.0</protobuf.version>
    <stax.version>1.0.1</stax.version>
    <slf4j.version>1.7.10</slf4j.version>
    <ST4.version>4.0.4</ST4.version>
    <storage-api.version>2.7.0</storage-api.version>
    <tez.version>0.9.1</tez.version>
    <super-csv.version>2.2.0</super-csv.version>
    <spark.version>2.3.0</spark.version>
    <scala.binary.version>2.11</scala.binary.version>
    <scala.version>2.11.8</scala.version>

查詢到的parquet版本為1.10.0版本

下載hadoop-parquet相關jar包

下載地址：https://mvnrepository.com/artifact/org.apache.parquet/parquet-hadoop
使用maven下載Apache Parquet Hadoop 1.10.0版本的jar包，下載下來的jar包如下：

commons-codec-1.10.jar       
jackson-mapper-asl-1.9.13.jar  
parquet-encoding-1.10.0.jar  
parquet-jackson-1.10.0.jar
commons-pool-1.6.jar         
parquet-column-1.10.0.jar      
parquet-format-2.4.0.jar     
slf4j-api-1.7.2.jar
jackson-core-asl-1.9.13.jar  
parquet-common-1.10.0.jar      
parquet-hadoop-1.10.0.jar    
snappy-java-1.1.2.6.jar

Spark配置

將下載的Parquet Hadoop相關的所有jar包加入到spark的classpath裡面：將下載的Parquet Hadoop相關的所有jar包儲存到/usr/local/parquet-hadoop-jars目錄下，並在${SPARK_HOME}/conf/spark-defaults.conf檔案中新增如下配置：

spark.driver.extraClassPath	/usr/local/parquet-hadoop-jars/*
spark.executor.extraClassPath	/usr/local/parquet-hadoop-jars/*

spark叢集所有節點都做同樣的配置，最後重啟spark叢集即可。

Spark 儲存模組原始碼學習
2020-03-22
Spark原始碼
spark 原始碼分析之十八 -- Spark儲存體系剖析
2019-07-23
Spark原始碼
spark 原始碼分析之十六 -- Spark記憶體儲存剖析
2019-07-18
Spark原始碼記憶體
Spark原始碼編譯與匯入IDEA除錯
2018-08-16
Spark原始碼編譯Idea除錯
JIT 編譯後的程式碼儲存位置
2024-12-10
編譯
OceanBase 原始碼解讀（九）：儲存層程式碼解讀之「巨集塊儲存格式」
2022-03-25
原始碼
使用 IntelliJ IDEA 匯入 Spark 最新原始碼及編譯 Spark 原始碼（博主強烈推薦）
2020-04-05
IntelliJIdeaSpark原始碼編譯
PHP 編譯引數儲存
2020-01-14
PHP編譯
Spark Parquet詳解
2020-09-29
Spark
Spark儲存Parquet資料到Hive，對map、array、struct欄位型別的處理
2020-12-04
SparkHiveStruct型別
OceanBase 儲存層程式碼解讀（三）巨集塊儲存格式
2022-03-10
OceanBase 儲存層程式碼解讀（二）微塊儲存格式
2021-10-13
Kubernetes原始碼編譯
2019-03-12
原始碼編譯
Spring原始碼編譯
2024-07-21
Spring原始碼編譯
Spark in action on Kubernetes - 儲存篇
2019-04-09
Spark
原始碼編譯Vim 8
2019-01-31
原始碼編譯
MongoDB（0）- 原始碼編譯
2018-03-07
MongoDB原始碼編譯
XCode 編譯 PAG 原始碼
2024-07-28
XCode編譯原始碼
Docker編譯Azerothcore原始碼
2024-07-04
Docker編譯原始碼
Laravel 儲存 (Storage) 原始碼分析
2019-08-14
Laravel原始碼
Oracle 編譯儲存過程卡死解決方法
2019-04-22
Oracle編譯儲存過程
Spark in action on Kubernetes - 儲存篇（一）
2019-04-19
Spark
MacOS X 編譯Android原始碼
2018-08-07
Mac編譯Android原始碼
原始碼編譯 apache2.4
2020-06-25
原始碼編譯Apache
WebRTC研究（一）編譯原始碼
2020-04-06
Web編譯原始碼
原始碼編譯安裝Redis
2018-04-25
原始碼編譯Redis
nvme driver 原始碼修改、編譯
2018-04-11
原始碼編譯
Android FrameWork 之原始碼編譯
2018-03-28
AndroidFramework原始碼編譯
龍芯原始碼編譯MySQL
2022-12-21
原始碼編譯MySql
Swift原始碼專案編譯
2020-12-07
Swift原始碼編譯
Appdash原始碼閱讀——Store儲存
2018-07-07
APP原始碼
Mysql 行的儲存格式
2021-12-09
MySql
Nebula Storage 2.0 儲存格式
2021-03-10
hive檔案儲存格式
2020-11-29
Hive
Oracle儲存過程編譯卡死的解決方法
2020-11-15
Oracle儲存過程編譯
Dubbo原始碼之動態編譯
2019-03-28
原始碼編譯
android 反編譯APK取原始碼。
2024-04-30
Android編譯APK原始碼
原始碼編譯安裝的原理
2020-09-17
原始碼編譯