聊聊Spark的分割槽、並行度 —— 前奏篇

大資料學習與分享發表於2020-11-17

原文網址 : https://www.cnblogs.com/bigdatalearnshare/p/13978637.html

通過之前的文章【Spark RDD詳解】，大家應該瞭解到Spark會通過DAG將一個Spark job中用到的所有RDD劃分為不同的stage，每個stage內部都會有很多子任務處理資料，而每個stage的任務數是決定效能優劣的關鍵指標。

首先來了解一下Spark中分割槽的概念，其實就是將要處理的資料集根據一定的規則劃分為不同的子集，每個子集都算做一個單獨的分割槽，由叢集中不同的機器或者是同一臺機器不同的core進行分割槽並行處理。

Spark對接不同的資料來源，在第一次得到的分割槽數是不一樣的，但都有一個共性：對於map類運算元或者通過map運算元產生的彼此之間具有窄依賴關係的RDD的分割槽數，子RDD分割槽與父RDD分割槽是一致的。而對於通過shuffle差生的子RDD則由分割槽器決定，當然預設分割槽器是HashPartitioner，我們完全可以根據實際業務場景進行自定義分割槽器，只需繼承Parttioner元件，主要重寫幾個方法即可

以載入hdfs檔案為例，Spark在讀取hdfs檔案還沒有呼叫其他運算元進行業務處理前，得到的RDD分割槽數由什麼決定呢？關鍵在於檔案是否可切分！

對於可切分檔案，如text檔案，那麼通過載入檔案得到的RDD的分割槽數預設與該檔案的block數量保持一致；

對於不可切分檔案，它只有一個block塊，那麼得到的RDD的分割槽數預設也就是1。

當然，我們可以通過呼叫一些運算元對RDD進行重分割槽，如repartition。

這裡必須要強調一點，很多小夥伴不理解，RDD既然不儲存資料，那麼載入過來的檔案都跑哪裡去了呢？這裡先給大家提個引子——blockmanager，Spark自己實現的儲存管理器。RDD的儲存概念其實block，至於block的大小可以根據不同的資料來源進行調整，blockmanager的資料儲存、傳輸都是以block進行的。至於block內部傳輸的時候，它的大小也是可以通過引數控制的，比如廣播變數、shuffle傳輸時block的大小等。

下面再通過大家熟知的一個引數spark.default.parallelism為引，聊一聊Spark並行度都由哪些因素決定？

上圖是spark官閘道器於spark.default.parallelism引數說明：

對於reduceByKey和join這些分散式shuffle運算元操作，取決於它的父RDD中分割槽數的最大值
對於沒有父RDD的的運算元，比如parallelize，依賴於叢集管理器：

本地模式：取決於本地機器的核數
如果叢集管理器是Mesos，則為8
其他的：對比所有executor上總核數與2比較，哪個大是哪個

當然上面這些都是預設值，如果我們自己設定了分割槽數，情況就會有所變化，直接看原始碼【檢視org.apache.spark.Partitioner原始碼defaultPartitioner方法】

你會發現，如果你使用reducebykey、groupByKey等這些帶shuffle的運算元，建議不要通過上述方法讓程式內部去推測。完全可以通過傳入一個確定的分割槽數或者自己實現一個分割槽器來做處理。當然這個確定的分割槽數也不是貿貿然設定的，需要結合你的業務場景根據實際情況來確定多少合適。比如shuffle時流經的資料量，這個就要結合分割槽數和shuffle總資料量來做適當調整，處理不好的結果極有可能導致資料傾斜等問題...

筆者再次建議，學習Spark一定要多看Spark官網http://spark.apache.org/，並且多看原始碼

關注微信公眾號：大資料學習與分享，獲取更對技術乾貨

重要 | Spark分割槽並行度決定機制
2020-11-19
Spark並行
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Spark操作Hive分割槽表
2018-12-07
SparkHive
Hive和Spark分割槽策略
2021-06-27
HiveSpark
Spark學習——分割槽Partition數
2019-04-03
Spark
Spark獲取當前分割槽的partitionId
2021-09-09
Spark
Apache Spark：分割槽和分桶 - Nivedita
2022-05-30
ApacheSpark
PostgreSQL 並行vacuum patch - 暨為什麼需要並行vacuum或分割槽表
2018-04-18
SQL並行
spark-運算元-分割槽運算元
2020-11-05
Spark
深入原始碼理解Spark RDD的資料分割槽原理
2020-08-20
原始碼Spark
Spark效能優化：提高並行度、使用reduceByKey
2018-09-14
Spark優化並行
linux掛載新硬碟並進行分割槽格式化
2022-05-27
Linux硬碟
mysql 進行表分割槽
2019-01-04
MySql
DiskGenius分割槽行動硬碟
2020-12-24
硬碟
Linux系統如何進行分割槽?swap分割槽是什麼?
2023-02-07
Linux
spark:自定義分割槽，自定義排序，spark與jdbc，廣播變數等
2018-10-13
Spark排序JDBC變數
[oracle] expdp 匯出分割槽表的分割槽
2021-01-28
Oracle
spark RDD textFile運算元分割槽數量詳解
2020-11-24
Spark
Virtualbox中Linux新增新磁碟並建立分割槽
2020-12-03
Linux
為linux新增一塊新硬碟並分割槽
2021-01-16
Linux硬碟
Hive的靜態分割槽與動態分割槽
2018-05-03
Hive
Linux分割槽方案、分割槽建議
2024-11-04
Linux
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
[原始碼解析] 深度學習流水線並行 PipeDream(2)--- 計算分割槽
2021-09-03
原始碼深度學習並行
PG的非分割槽表線上轉分割槽表
2022-07-12
parted和fdisk——兩種磁碟分割槽並掛載的方法
2019-03-07
oracle分割槽表和分割槽表exchange
2024-03-15
Oracle
PostgreSQL/LightDB 分割槽表之分割槽裁剪
2022-07-14
SQL
Linux 分割槽擴容（根分割槽擴容，SWAP 分割槽擴容，掛載新分割槽為目錄）
2021-08-27
Linux
SQL Server大分割槽表沒有空分割槽的情況下如何擴充套件分割槽的方法
2022-09-30
SQLServer套件
HGDB的分割槽表實現SQL Server的分割槽檢視
2021-11-22
SQLServer
Spark SQL：Parquet資料來源之自動分割槽推斷
2018-09-26
SparkSQL
oracle 分割槽表move和包含分割槽表的lob move
2019-03-11
Oracle
移動分割槽表和分割槽索引的表空間
2018-05-23
索引
Oracle分割槽表基礎運維-07增加分割槽(2 HASH分割槽)
2020-05-18
Oracle運維
MySQL的分割槽（一）
2020-06-20
MySql
MySQL的分割槽（二）
2020-06-20
MySql
linux的分割槽方法
2019-06-06
Linux

聊聊Spark的分割槽、並行度 —— 前奏篇

相關文章