Spark效能優化：提高並行度、使用reduceByKey

豐澤發表於2018-09-14

原文網址 : https://juejin.im/post/5b9b81c5e51d450e8f5f731e

Spark優化並行

一、提高並行度

實際上Spark叢集的資源並不一定會被充分利用到，所以要儘量設定合理的並行度，來充分地利用叢集的資源。才能充分提高Spark應用程式的效能。

Spark會自動設定以檔案作為輸入源的RDD的並行度，依據其大小，比如HDFS，就會給每一個block建立一個partition，也依據這個設定並行度。對於reduceByKey等會發生shuffle的操作，就使用並行度最大的父RDD的並行度即可。

可以手動使用textFile()、parallelize()等方法的第二個引數來設定並行度；也可以使用spark.default.parallelism引數，來設定統一的並行度。Spark官方的推薦是，給叢集中的每個cpu core設定2~3個task。

比如說，spark-submit設定了executor數量是10個，每個executor要求分配2個core，那麼application總共會有20個core。此時可以設定new SparkConf().set("spark.default.parallelism", "60")來設定合理的並行度，從而充分利用資源。

原理圖：

Spark效能優化：提高並行度、使用reduceByKey

二、reduceByKey和groupByKey

val counts = pairs.reduceByKey(_ + _)

val counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))

如果能用reduceByKey，那就用reduceByKey，因為它會在map端，先進行本地combine，可以大大減少要傳輸到reduce端的資料量，減小網路傳輸的開銷。

只有在reduceByKey處理不了時，才用groupByKey().map()來替代。

原理圖：

reduceByKey-

Spark效能優化：提高並行度、使用reduceByKey

groupByKey-

Spark效能優化：提高並行度、使用reduceByKey

相關文章

Spark讀Hbase優化 --手動劃分region提高並行數
2018-12-15
Spark優化並行
Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數
2018-12-16
Spark優化並行
Spark效能優化
2022-04-09
Spark優化
spark效能優化（一）
2021-10-17
Spark優化
js程式碼優化提高執行效能
2020-12-23
JS優化
spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
spark reduceByKey原始碼解析
2020-12-06
Spark原始碼
Spark效能優化：優化資料結構
2018-09-13
Spark優化資料結構
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
Spark（十三） Spark效能調優之RDD持久化
2019-01-15
Spark持久化
spark效能優化幾點注意
2019-07-25
Spark優化
使用shouldComponentUpdate進行效能優化
2018-11-20
優化
Spark 3.x Spark Core詳解 & 效能優化
2022-06-01
Spark優化
Java效能優化：教你提高程式碼執行的效率
2019-04-15
Java優化
聊聊Spark的分割槽、並行度 —— 前奏篇
2020-11-17
Spark並行
Spark效能優化：對RDD持久化或CheckPoint操作
2018-09-14
Spark優化持久化
效能優化小冊 - 提高網頁響應速度：優化你的 CDN 效能
2020-05-21
優化網頁
重要 | Spark分割槽並行度決定機制
2020-11-19
Spark並行
提高網站訪問效能之Tomcat優化
2020-06-09
網站Tomcat優化
Spark效能優化：診斷記憶體的消耗
2018-09-13
Spark優化記憶體
Spark 效能調優--資源調優
2021-09-09
Spark
效能除錯：分析並優化 Go 程式
2018-09-02
除錯優化Go
iOS效能優化系列篇之“列表流暢度優化”
2018-08-14
iOS優化
hive、spark優化
2020-12-04
HiveSpark優化
[譯] 提高 10 倍效能：優化靜態網站
2018-04-08
優化網站
Spark SQL 效能優化再進一步 CBO 基於代價的優化
2018-09-26
SparkSQL優化
Spark學習——效能調優（一）
2019-04-01
Spark
Spark學習——效能調優（二）
2019-04-01
Spark
Spark學習——效能調優（三）
2019-04-02
Spark
MySQL效能優化的5個維度
2022-04-07
MySql優化
Spark效能最佳化篇三：資料傾斜調優
2021-09-09
Spark
【前端效能優化】vue效能優化
2019-04-30
前端優化Vue
使用多執行緒提高rest服務效能
2019-03-01
執行緒REST
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
spark效能調優指南高階篇
2021-09-09
Spark
Spark 效能調優--開發階段
2021-09-09
Spark
如果要做優化，CSS提高效能的方法有哪些？
2021-04-19
優化CSS
前端效能優化實踐之百度App個人主頁優化
2020-04-03
前端優化APP