Spark Job-Stage-Task例項理解

HoLoong發表於2020-09-21

Spark Job-Stage-Task例項理解

基於一個word count的簡單例子理解Job、Stage、Task的關係，以及各自產生的方式和對並行、分割槽等的聯絡；

例子程式碼

'''
DAG: Job vs Stage vs Task
'''

# 初始化spark環境
from pyspark import SparkContext,SparkConf
conf = SparkConf()
conf.setMaster('local').setAppName('Job vs Stage vs Task')
sc = SparkContext(conf=conf)

alpha_rdd1 = sc.parallelize(['a c','a b','b c','b d','c d'],10)
word_count1 = alpha_rdd1.flatMap(lambda a:a.split(' ')).map(lambda a:(a,1)).reduceByKey(lambda x,y:x+y)

alpha_rdd2 = sc.parallelize(['a c','a b','b c','b d','c d'],10)
word_count2 = alpha_rdd2.flatMap(lambda a:a.split(' ')).map(lambda a:(a,1)).reduceByKey(lambda x,y:x+y)

word_count1.join(word_count2).collect()

print('END')
input() # input是方便指令碼執行不會終止導致web ui不能正常瀏覽

可以看到，主要的資料處理邏輯分為三部分，分別是兩個word count，以及最後對兩個結果的join，事實上這也對應了3個stage，下面是程式碼與stage的對應圖，注意圖中的並行關係：

從圖中可以看出，原始碼只有一個action（collect），因此只有一個Job，這個Job被換分為3個Stage，劃分原因是有shuffle出現（reductByKey），而明顯看出的是Stage 0和Stage 1互相沒有依賴關係，因此可以並行，而Stage 2則是依賴於0和1的，因此會最後一個執行；

Spark Web UI

下面通過Web UI來進一步檢視Job、Stage、Task的關係；

從上圖看到，只有一個已完成的Job，該Job包含3個Stage，30個Task（注意之前的程式碼裡parallelize設定的分割槽數為10,3*10=30）；

上圖表示該Job的執行時間線圖，可以明顯的看到Stage0和Stage1在時間上有大部分重疊，也就是並行進行，而Stage2是在Stage1結束後才開始，因為Stage0結束的更早，這裡對於依賴關係的展示還是很明顯的；

另外，對於stage0和stage1，雖然處理的資料量很小，但是依然可以看出二者的執行時間比較接近，也就是沒有明顯的資料偏斜的情況出現，當然，這裡因為只是測試資料，而真實場景下很容易出現個別stage執行時間遠遠超過其他的stage，導致整體的時間被拖長；

上圖是該Job對應的DAG視覺化圖，它是直接的對Stage以及Stage間的依賴關係進行展示，也驗證了我們之前的分析，這裡每個Stage還可以繼續點進去；

上圖中可以更清晰的看到，每個Stage中都包含10個Task，其實就是對應10個partition，對於Stage0和Stage1，他們都是在shuffle前的Stage，因此他們都有Shuffle Write的動作，大小都是514，而Stage2則是join這兩部分資料，因此有Shuffle Read動作，大小而前二者之和，也就是1028；

Spark 簡單例項（基本操作）
2018-04-19
Spark單例
Spark程式設計環境搭建及WordCount例項
2018-09-12
Spark程式設計
例項分析理解Java位元組碼
2019-03-01
Java
通過例項理解 JDK8 的 CompletableFuture
2018-05-01
JDK
JS函式，物件，例項方法，物件方法理解
2018-04-30
JS函式物件
非同步（一）：Promise深入理解與例項分析
2019-02-10
非同步Promise
Spark in action on Kubernetes - Spark Operator的原理解析
2019-04-03
Spark
Spark SQL:4.對Spark SQL的理解
2018-12-08
SparkSQL
理解Python中的類物件、例項物件、屬性、方法
2018-05-08
Python物件
php例項化物件的例項方法
2021-10-24
PHP物件
深入理解建造者模式 ——組裝複雜的例項
2019-01-19
模式
用例項帶你深入理解Java記憶體模型
2022-02-24
Java記憶體模型
前端面試之理解原型/建構函式/例項(JavaScript篇)
2019-04-20
前端面試原型函式JavaScript
OkHttpClient例項
2023-11-07
HTTPclient
unittest例項
2024-08-17
jQuery 例項
2022-08-04
jQuery
《深入理解Spark》之Spark的整體執行流程
2018-08-15
Spark
[機器學習]協同過濾演算法的原理和基於Spark 例項
2020-12-30
機器學習演算法Spark
Activiti的流程例項【ProcessInstance】與執行例項【Execution】
2020-10-19
Spark UDAF實現舉例 -- average pooling
2020-12-31
Spark
例項化list
2019-03-27
msfvenom使用例項
2018-09-30
雙層 for 例項
2018-07-03
python socket例項
2018-07-25
Python
pinctrl使用例項
2024-03-23
Draggable 拖拽例項
2024-04-09
python例項1
2024-05-26
Python
策略模式例項
2024-03-18
模式
SQLMAP 例項COOKBOOK
2020-08-19
SQL
Java例項教程
2020-10-26
Java
ORM 例項教程
2019-02-18
ORM
類和例項
2024-06-10
Proxy例項set()
2018-03-27
expect使用例項
2021-12-04
如何區分例項化網格中的每個例項
2024-11-04
如何將獨立例項轉換成叢集例項EU
2022-03-21
Docker的通俗理解和透過宿主機埠訪問Redis容器的例項
2024-06-14
DockerRedis
Websocet 入門例項
2018-10-29
Web

Spark Job-Stage-Task例項理解

Spark Job-Stage-Task例項理解

相關概念

例子程式碼

Spark Web UI

相關文章