Spark學習（三）——Stage和寬窄依賴

Hiway發表於2019-03-31

Stage生成和Stage原始碼淺析
 Spark技術內幕：Stage劃分及提交原始碼分析

窄依賴和寬依賴

窄依賴：

指父RDD的每一個分割槽最多被一個子RDD的分割槽所用，表現為一個父RDD的分割槽對應於一個子RDD的分割槽，和兩個父RDD的分割槽對應於一個子RDD 的分割槽。圖中，map/filter和union屬於第一類，對輸入進行協同劃分（co-partitioned）的join屬於第二類。

寬依賴：

指子RDD的分割槽依賴於父RDD的所有分割槽，這是因為shuffle類操作，如圖中的groupByKey和未經協同劃分的join。

DAG

DAG，有向無環圖，Directed Acyclic Graph的縮寫，常用於建模。Spark中使用DAG對RDD的關係進行建模，描述了RDD的依賴關係，這種關係也被稱之為lineage，RDD的依賴關係使用Dependency維護，參考Spark RDD之Dependency，DAG在Spark中的對應的實現為DAGScheduler。

Stage

在spark中，會根據RDD之間的依賴關係將DAG圖劃分為不同的階段，一個Job會被拆分為多組TaskSet，每組任務被稱為一個Stage。對於窄依賴，由於partition依賴關係的確定性，partition的轉換處理就可以在同一個執行緒裡完成，窄依賴就被spark劃分到同一個stage中，而對於寬依賴，只能等父RDD shuffle處理完成後，下一個stage才能開始接下來的計算。

Stage劃分思路

因此spark劃分stage的整體思路是：從後往前推，遇到寬依賴就斷開，劃分為一個stage；遇到窄依賴就將這個RDD加入該stage中。因此在上圖中RDD C,RDD D,RDD E,RDDF被構建在一個stage中,RDD A被構建在一個單獨的Stage中,而RDD B和RDD G又被構建在同一個stage中。
在spark中，Task的型別分為2種：ShuffleMapTask和ResultTask；
- ResultTask：對於 DAG 圖中最後一個 Stage（也就是 ResultStage），會生成與該 DAG 圖中哦最後一個 RDD （DAG 圖中最後邊）partition 個數相同的 ResultTask
- ShuffleMapTask：對於非最後的 Stage（也就是 ShuffleMapStage），會生成與該 Stage 最後的 RDD partition 個數相同的 ShuffleMapTask
每個Stage裡面的Task的數量是由該Stage中最後一個RDD的Partition的數量所決定的

注意：同一個Stage的執行是序列的，比如Stage2的RDD C-D-F中，假設只有一個CPU core ，Spark是先將一條資料按C-D-F的順序執行完後，再執行下一條資料。而不是將所有資料從RDD C中計算到RDD D了，再往下計算RDD F。

總結

RDD的寬窄依賴的劃分是為了劃分Stage，劃分Stage是為了Pipline計算模型的實現，Pipline的計算模式能夠以一種管道流的方式，以高階函式的形式實現資料的本地化，傳邏輯而不傳輸資料。在Pipline計算模式遇到持久化運算元或者Shuffle（寬依賴運算元）時候就會產生資料的落地。

Spring學習（三）依賴注入
2024-07-27
Spring依賴注入
Spark RDD 特徵及其依賴
2018-09-23
Spark特徵
Spark Stage
2021-09-09
Spark
「Laravel 核心學習」類的反射和依賴注入
2022-02-25
Laravel反射依賴注入
spring框架學習依賴注入
2020-12-12
Spring框架依賴注入
依賴管理和依賴範圍
2024-07-26
Spring學習：簡單實現一個依賴注入和迴圈依賴的解決
2022-01-11
Spring依賴注入
【Vue原始碼學習】依賴收集
2022-01-29
Vue原始碼
Spark學習筆記（三）-Spark Streaming
2020-06-24
Spark筆記
SpringMVC學習筆記---依賴配置和簡單案例實現
2021-11-27
SpringMVC筆記
Laravel深入學習12 – 依賴倒置原則
2019-02-16
Laravel
net5學習筆記---依賴注入
2021-05-15
筆記依賴注入
依賴倒轉原則--學習筆記
2020-11-27
筆記
Spark學習——效能調優（三）
2019-04-02
Spark
WPF依賴屬性的正確學習方法
2019-07-24
Java學習：反射的應用，依賴載入
2019-02-16
Java反射
Vue 2.x原始碼學習：render方法、模板解析和依賴收集
2022-11-30
Vue原始碼
ASP.NET Core 學習筆記第三篇依賴注入框架的使用
2021-10-10
ASP.NET筆記依賴注入框架
IOC容器和依賴注入
2024-08-16
依賴注入
ASP.NET Core - 依賴注入(三)
2023-02-28
ASP.NET依賴注入
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL
類的反射和依賴注入
2019-02-28
反射依賴注入
依賴注入和控制反轉
2021-01-25
依賴注入
依賴
2024-09-12
Spring 迴圈依賴的三種方式（三級快取解決Set迴圈依賴問題）
2020-12-23
Spring快取
Spark Job-Stage-Task例項理解
2020-09-21
Spark
再探迴圈依賴 → Spring 是如何判定原型迴圈依賴和構造方法迴圈依賴的？
2021-03-15
Spring原型構造方法
學習記錄-Laravel 核心依賴注入控制反轉反射
2019-08-08
Laravel依賴注入反射
依賴倒置、依賴注入和控制反轉傻傻分不清楚？
2020-07-24
依賴注入
Spring的三種依賴注入的方式
2024-07-03
Spring依賴注入
spring常用的三種依賴注入方式
2021-04-28
Spring依賴注入
半導體“依賴症”：世界依賴中國、中國依賴世界
2020-11-12
Spark RDD詳解 | RDD特性、lineage、快取、checkpoint、依賴關係
2020-10-23
Spark快取
spark 學習
2020-04-22
Spark
spark 原始碼分析之十九 -- DAG的生成和Stage的劃分
2019-07-25
Spark原始碼
Maven依賴管理：控制依賴的傳遞
2019-03-02
Maven
maven中新增Servlet和jsp依賴
2020-11-23
MavenServletJS
Spring 控制反轉和依賴注入
2022-02-20
Spring依賴注入