Spark面試題（八）——Spark的Shuffle配置調優

大資料技術派發表於2021-11-19

原文網址 : https://www.cnblogs.com/data-magnifier/p/15576177.html

Spark系列面試題

1、Shuffle優化配置 `-spark.shuffle.file.buffer`

預設值：32k
引數說明：該引數用於設定shuffle write task的BufferedOutputStream的buffer緩衝大小。將資料寫到磁碟檔案之前，會先寫入buffer緩衝中，待緩衝寫滿之後，才會溢寫到磁碟。
調優建議：如果作業可用的記憶體資源較為充足的話，可以適當增加這個引數的大小（比如64k），從而減少shuffle write過程中溢寫磁碟檔案的次數，也就可以減少磁碟IO次數，進而提升效能。在實踐中發現，合理調節該引數，效能會有1%~5%的提升。

2、Shuffle優化配置 `-spark.reducer.maxSizeInFlight`

預設值：48m
引數說明：該引數用於設定shuffle read task的buffer緩衝大小，而這個buffer緩衝決定了每次能夠拉取多少資料。
調優建議：如果作業可用的記憶體資源較為充足的話，可以適當增加這個引數的大小（比如96m），從而減少拉取資料的次數，也就可以減少網路傳輸的次數，進而提升效能。在實踐中發現，合理調節該引數，效能會有1%~5%的提升。

3、Shuffle優化配置 `-spark.shuffle.io.maxRetries`

預設值：3
引數說明：shuffle read task從shuffle write task所在節點拉取屬於自己的資料時，如果因為網路異常導致拉取失敗，是會自動進行重試的。該引數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。
調優建議：對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的full gc或者網路不穩定等因素導致的資料拉取失敗。在實踐中發現，對於針對超大資料量（數十億~上百億）的shuffle過程，調節該引數可以大幅度提升穩定性。

4、Shuffle優化配置 `-spark.shuffle.io.retryWait`

預設值：5s
引數說明： shuffle read task從shuffle write task所在節點拉取屬於自己的資料時，如果因為網路異常導致拉取失敗，是會自動進行重試的，該引數代表了每次重試拉取資料的等待間隔，預設是5s。
調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

5、Shuffle優化配置 `-spark.shuffle.memoryFraction`

預設值：0.2
引數說明：該引數代表了Executor記憶體中，分配給shuffle read task進行聚合操作的記憶體比例，預設是20%。
調優建議：在資源引數調優中講解過這個引數。如果記憶體充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多記憶體，以避免由於記憶體不足導致聚合過程中頻繁讀寫磁碟。在實踐中發現，合理調節該引數可以將效能提升10%左右。

6、Shuffle優化配置 `-spark.shuffle.manager`

預設值：sort
引數說明：該引數用於設定ShuffleManager的型別。Spark 1.5以後，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項，但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外記憶體管理機制，記憶體使用效率更高。
調優建議：由於SortShuffleManager預設會對資料進行排序，因此如果你的業務邏輯中需要該排序機制的話，則使用預設的SortShuffleManager就可以；而如果你的業務邏輯不需要對資料進行排序，那麼建議參考後面的幾個引數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁碟讀寫效能。這裡要注意的是，tungsten-sort要慎用，因為之前發現了一些相應的bug。

7、Shuffle優化配置 `-spark.shuffle.sort.bypassMergeThreshold`

預設值：200
引數說明：當ShuffleManager為SortShuffleManager時，如果shuffle read task的數量小於這個閾值（預設是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫資料，但是最後會將每個task產生的所有臨時磁碟檔案都合併成一個檔案，並會建立單獨的索引檔案。
調優建議：當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個引數調大一些，大於shuffle read task的數量。那麼此時就會自動啟用bypass機制，map-side就不會進行排序了，減少了排序的效能開銷。但是這種方式下，依然會產生大量的磁碟檔案，因此shuffle write效能有待提高。

8、Shuffle優化配置 `-spark.shuffle.consolidateFiles`

預設值：false
引數說明：如果使用HashShuffleManager，該引數有效。如果設定為true，那麼就會開啟consolidate機制，會大幅度合併shuffle write的輸出檔案，對於shuffle read task數量特別多的情況下，這種方法可以極大地減少磁碟IO開銷，提升效能。
調優建議：如果的確不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可以嘗試將spark.shffle.manager引數手動指定為hash，使用HashShuffleManager，同時開啟consolidate機制。在實踐中嘗試過，發現其效能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

總結：

1、spark.shuffle.file.buffer：主要是設定的Shuffle過程中寫檔案的緩衝，預設32k，如果記憶體足夠，可以適當調大，來減少寫入磁碟的數量。
2、spark.reducer.maxSizeInFight：主要是設定Shuffle過程中讀檔案的緩衝區，一次能夠讀取多少資料，如果記憶體足夠，可以適當擴大，減少整個網路傳輸次數。
3、spark.shuffle.io.maxRetries：主要是設定網路連線失敗時，重試次數，適當調大能夠增加穩定性。
4、spark.shuffle.io.retryWait：主要設定每次重試之間的間隔時間，可以適當調大，增加程式穩定性。
5、spark.shuffle.memoryFraction：Shuffle過程中的記憶體佔用，如果程式中較多使用了Shuffle操作，那麼可以適當調大該區域。
6、spark.shuffle.manager：Hash和Sort方式，Sort是預設，Hash在reduce數量比較少的時候，效率會很高。
7、spark.shuffle.sort. bypassMergeThreshold：設定的是Sort方式中，啟用Hash輸出方式的臨界值，如果你的程式資料不需要排序，而且reduce數量比較少，那推薦可以適當增大臨界值。
8、spark. shuffle.cosolidateFiles：如果你使用Hash shuffle方式，推薦開啟該配置，實現更少的檔案輸出。

Spark shuffle調優
2018-12-17
Spark
Spark面試題（七）——Spark程式開發調優
2021-11-18
Spark面試題
Spark面試題
2021-10-26
Spark面試題
【Spark篇】---Spark中Shuffle檔案的定址
2018-03-07
Spark
Spark面試題（四）
2021-11-07
Spark面試題
Spark的Shuffle總結分析
2020-02-15
Spark
spark2020面試題
2020-11-19
Spark面試題
Spark面試題整理（三）
2021-10-30
Spark面試題
Spark學習——排序Shuffle
2019-04-03
Spark排序
spark調優-背壓
2024-10-21
Spark
Spark 效能調優--資源調優
2021-09-09
Spark
Spark（十三） Spark效能調優之RDD持久化
2019-01-15
Spark持久化
Spark的兩種核心Shuffle詳解
2021-08-16
Spark
spark學習筆記--Spark調優與除錯
2018-07-12
Spark筆記除錯
1，Spark引數調優
2021-09-07
Spark
Spark效能調優-RDD運算元調優篇（深度好文，面試常問，建議收藏）
2021-03-05
Spark面試
Spark 經典面試題彙總《一》
2023-02-27
Spark面試題
Spark學習——效能調優（一）
2019-04-01
Spark
Spark學習——效能調優（二）
2019-04-01
Spark
Spark學習——效能調優（三）
2019-04-02
Spark
Spark-Shuffle過程概要參考
2018-10-15
Spark
Spark Streaming調優引數及最佳實踐深入剖析-Spark商業調優實戰
2018-11-18
Spark
Spark應用程式開發引數調優深入剖析-Spark商業調優實戰
2019-03-04
Spark
Spark 原始碼系列（六）Shuffle 的過程解析
2019-04-25
Spark原始碼
Hadoop/Spark相關面試問題總結
2019-02-15
HadoopSpark面試
Spark Core基礎面試題總結（上）
2020-10-08
Spark面試題
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
spark效能調優指南高階篇
2021-09-09
Spark
Spark 效能調優--開發階段
2021-09-09
Spark
Spark Shuffle機制詳細原始碼解析
2020-11-12
Spark原始碼
Spark Shuffle Write階段磁碟檔案分析
2021-09-09
Spark
簡要MR與Spark在Shuffle區別
2021-01-18
Spark
Spark效能調優——9項基本原則
2021-11-17
Spark
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
hive on spark配置
2018-12-01
HiveSpark
spark_home的配置
2018-07-30
Spark
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL
spark task與stage數量過多調優
2020-11-29
Spark

Spark面試題（八）——Spark的Shuffle配置調優

Spark系列面試題

1、Shuffle優化配置 -spark.shuffle.file.buffer

2、Shuffle優化配置 -spark.reducer.maxSizeInFlight

3、Shuffle優化配置 -spark.shuffle.io.maxRetries

4、Shuffle優化配置 -spark.shuffle.io.retryWait

5、Shuffle優化配置 -spark.shuffle.memoryFraction

6、Shuffle優化配置 -spark.shuffle.manager

7、Shuffle優化配置 -spark.shuffle.sort.bypassMergeThreshold

8、Shuffle優化配置 -spark.shuffle.consolidateFiles

總結：

相關文章