Spark學習——分割槽Partition數

Hiway發表於2019-04-03

原文網址 : https://juejin.im/post/5ca45510f265da30cd184d41

Spark

其他更多java基礎文章：
java基礎學習(目錄)

這部分能力有限，所以推薦一些大神文章閱讀學習：

Spark 建立RDD、DataFrame各種情況的預設分割槽數：這篇通過例項非常全的測試了各種情況下的預設分割槽數
Spark RDD之Partition：這篇通過程式碼講解了分割槽的邏輯、決定partition數量的因素、Partition數量影響及調整。
spark中repartition和partitionBy的區別、spark中reparation和coalesce的用法和區別：通過原始碼講解repartition，partitionBy，coalesce

總結

我在以我的理解簡單的概括下，如有不對，希望大家及時斧正：

Task和Partition是一一對應的
通過spark.default.parallelism設定sc.defaultParallelism的值
sc.defaultMinPartitions=min(sc.defaultParallelism,2)。也就是sc.defaultMinPartitions只有兩個值1和2，當sc.defaultParallelism>1時值為2，當sc.defaultParallelism=1時，值為1
sc.parallelize(…)的預設Partition值是sc.defaultParallelism的值
sc.textFile(…)如果不傳Partition值，絕大多數則為HDFS中Block的數量。原因是partition = max(hdfs檔案的block數目, sc.defaultMinPartitions)，由於sc.defaultMinPartitions只能是1或2。
- 如果hdfs檔案block數量大於1時，Partition數目就是block數目。
- 如果hdfs檔案block數量等於1時，預設分割槽數為sc.defaultMinPartitions，只可能是1或2。當用引數指定分割槽數時，rdd的分割槽數大於等於引數值，本次測試為等於引數值或引數值+1
本地檔案也會像hdfs一樣進行類似於block的劃分，固定按32M來分片。分割槽數 = max(本地檔案的block數目, 引數值)
從關係型資料庫表讀取的df的分割槽數為1
讀取hive表建立的DataFrame的分割槽數，block數為hive表對應的hdfs檔案的block的數目，當sc.defaultParallelism大於block時，df的分割槽是等於sc.defaultParallelism，當小於block時，df的分割槽數介於sc.defaultParallelism和block之間

分割槽Partition
2024-11-14
分割槽partition知識點
2018-04-04
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Oracle Partition 分割槽詳細總結
2018-05-07
Oracle
分割槽函式Partition By的基本用法
2024-10-11
函式
Kafka分割槽分配策略（Partition Assignment Strategy）
2021-01-26
Kafka
Spark操作Hive分割槽表
2018-12-07
SparkHive
Hive和Spark分割槽策略
2021-06-27
HiveSpark
分割槽函式partition by的基本用法【轉載】
2024-12-02
函式
spark RDD textFile運算元分割槽數量詳解
2020-11-24
Spark
Oracle查詢Interval partition分割槽表內資料
2018-11-17
Oracle
spark:自定義分割槽，自定義排序，spark與jdbc，廣播變數等
2018-10-13
Spark排序JDBC變數
Apache Spark：分割槽和分桶 - Nivedita
2022-05-30
ApacheSpark
使用parted建立大分割槽時 mkpart Warning: The resulting partition is not properly
2022-06-13
Spark獲取當前分割槽的partitionId
2021-09-09
Spark
MySQL全面瓦解29：使用Partition功能實現水平分割槽
2021-12-07
MySql
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
聊聊Spark的分割槽、並行度 —— 前奏篇
2020-11-17
Spark並行
spark-運算元-分割槽運算元
2020-11-05
Spark
hive學習筆記之四：分割槽表
2021-07-02
Hive筆記
重要 | Spark分割槽並行度決定機制
2020-11-19
Spark並行
Linux 學習基礎入門之Linux分割槽
2018-12-01
Linux
深入原始碼理解Spark RDD的資料分割槽原理
2020-08-20
原始碼Spark
Partition|Disk Utility 如何分割磁碟
2022-01-05
rabbitmq 學習與實踐分享之網路分割槽
2019-04-25
MQ
Linux分割槽方案、分割槽建議
2024-11-04
Linux
Laravel Query Builder 複雜查詢案例：子查詢實現分割槽查詢 partition by
2018-11-27
LaravelUI
oracle分割槽表和分割槽表exchange
2024-03-15
Oracle
PostgreSQL/LightDB 分割槽表之分割槽裁剪
2022-07-14
SQL
Linux 分割槽擴容（根分割槽擴容，SWAP 分割槽擴容，掛載新分割槽為目錄）
2021-08-27
Linux
Spark SQL：Parquet資料來源之自動分割槽推斷
2018-09-26
SparkSQL
Oracle分割槽表基礎運維-07增加分割槽(2 HASH分割槽)
2020-05-18
Oracle運維
oracle分割槽表和非分割槽表exchange
2024-03-15
Oracle
非分割槽錶轉換成分割槽表
2022-07-09
[oracle] expdp 匯出分割槽表的分割槽
2021-01-28
Oracle
spark 學習
2020-04-22
Spark
Oracle分割槽表基礎運維-07增加分割槽(1範圍分割槽)
2020-05-18
Oracle運維
openGauss 分割槽
2024-03-30

Spark學習——分割槽Partition數

總結

相關文章