【Spark篇】---Spark資源排程和任務排程

LHBlog發表於2018-02-05

Spark

一、前述

Spark的資源排程是個很重要的模組，只要搞懂原理，才能具體明白Spark是怎麼執行的，所以尤其重要。

自願申請的話，本文分粗粒度和細粒度模式分別介紹。

二、具體

Spark資源排程流程圖：

Spark資源排程和任務排程的流程：

1、啟動叢集后，Worker節點會向Master節點彙報資源情況，Master掌握了叢集資源情況。

2、當Spark提交一個Application後，根據RDD之間的依賴關係將Application形成一個DAG有向無環圖。任務提交後，Spark會在Driver端建立兩個物件：DAGScheduler和TaskScheduler。

3、DAGScheduler是任務排程的高層排程器，是一個物件。DAGScheduler的主要作用就是將DAG根據RDD之間的寬窄依賴關係劃分為一個個的Stage，然後將這些Stage以TaskSet的形式提交給TaskScheduler（TaskScheduler是任務排程的低層排程器，這裡TaskSet其實就是一個集合，裡面封裝的就是一個個的task任務,也就是stage中的並行度task任務）

4、TaskSchedule會遍歷TaskSet集合，拿到每個task後會將task傳送到計算節點Executor中去執行（其實就是傳送到Executor中的執行緒池ThreadPool去執行）。

5、task在Executor執行緒池中的執行情況會向TaskScheduler反饋，

6、當task執行失敗時，則由TaskScheduler負責重試，將task重新傳送給Executor去執行，預設重試3次。如果重試3次依然失敗，那麼這個task所在的stage就失敗了。

7、stage失敗了則由DAGScheduler來負責重試，重新傳送TaskSet到TaskSchdeuler，Stage預設重試4次。如果重試4次以後依然失敗，那麼這個job就失敗了。job失敗了，Application就失敗了。

8、TaskScheduler不僅能重試失敗的task,還會重試straggling（落後，緩慢）task（也就是執行速度比其他task慢太多的task）。如果有執行緩慢的task那麼TaskScheduler會啟動一個新的task來與這個執行緩慢的task執行相同的處理邏輯。兩個task哪個先執行完，就以哪個task的執行結果為準。這就是Spark的推測執行機制。在Spark中推測執行預設是關閉的。推測執行可以通過spark.speculation屬性來配置。

總結：

1、對於ETL型別要入資料庫的業務要關閉推測執行機制，這樣就不會有重複的資料入庫。

2、如果遇到資料傾斜的情況，開啟推測執行則有可能導致一直會有task重新啟動處理相同的邏輯，任務可能一直處於處理不完的狀態。（所以一般關閉推測執行）

3、一個job中多個action，就會有多個job，一般一個action對應一個job,如果一個application中有多個job時，按照順序一次執行，即使後面的失敗了，前面的執行完了就完了，不會回滾。

4、有SparkContext端就是Driver端。

5、一般到如下幾行時，資源就申請完了，後面的就是處理邏輯了

               val conf = new SparkConf()
                 conf.setMaster("local").setAppName("pipeline");
                             val sc = new SparkContext(conf)

粗粒度資源申請和細粒度資源申請

粗粒度資源申請(Spark）

在Application執行之前，將所有的資源申請完畢，當資源申請成功後，才會進行任務的排程，當所有的task執行完成後，才會釋放這部分資源。

優點：在Application執行之前，所有的資源都申請完畢，每一個task執行時直接使用資源就可以了，不需要task執行時在執行前自己去申請資源，task啟動就快了，task執行快了，stage執行就快了，job就快了，application執行就快了。

缺點：直到最後一個task執行完成才會釋放資源，集群的資源無法充分利用。當資料傾斜時更嚴重。

細粒度資源申請（MapReduce）

Application執行之前不需要先去申請資源，而是直接執行，讓job中的每一個task在執行前自己去申請資源，task執行完成就釋放資源。

優點：叢集的資源可以充分利用。

缺點：task自己去申請資源，task啟動變慢，Application的執行就相應的變慢了。

Spark中資源排程和任務排程
2021-11-12
Spark
Spark - [03] 資源排程模式
2024-10-11
Spark模式
開源專案推薦 - 巨鯨任務排程平臺（Spark、Flink）
2020-07-26
Spark
任務排程
2018-11-24
Timer和TimerTask 任務排程
2018-07-09
Airflow 任務排程
2024-04-24
AI
Laravel 任務排程
2019-11-26
Laravel
分散式任務排程
2019-03-04
分散式
Spring 指南（排程任務）
2019-01-19
Spring
開源公開課丨大資料排程系統 Taier 任務排程介紹
2022-08-22
大資料AI
5、基礎篇-資源排程
2021-08-29
任務排程的思考和總結
2018-03-31
聊聊PowerJob的任務排程
2024-02-15
Linux 定時任務排程
2021-08-17
Linux
分散式排程任務-ElasticJob
2021-06-08
分散式AST
LeetCode 621 任務排程器
2020-12-05
LeetCode
LiteOS-任務篇-原始碼分析-任務排程函式
2020-10-13
原始碼函式
Yarn資源排程
2020-09-23
Yarn
spark原始碼之任務提交過程
2018-10-15
Spark原始碼
Python任務排程模組APScheduler
2019-02-16
Python
LTS分散式任務排程部署
2019-03-09
分散式
linux基礎（四）——任務排程cron和anacron
2018-07-20
Linux
Flink排程之排程器、排程策略、排程模式
2023-03-08
模式
laravel框架任務排程（定時執行任務）
2019-05-11
Laravel框架
Spring排程定時任務的方式
2019-01-13
Spring
Android 中的定時任務排程
2019-03-04
Android
力扣-621. 任務排程器
2024-06-22
力扣
Flink - Task 任務排程執行流程
2023-03-25
力扣 621. 任務排程器
2020-12-05
力扣
任務排程框架Quartz快速入門！
2020-12-26
框架quartz
621. 任務排程器（構造）
2020-12-05
開源分散式任務排程系統就選：DolphinScheduler
2023-02-28
分散式
宜信開源微服務任務排程平臺（SIA-TASK）
2019-05-27
微服務
用海豚排程器定時排程從Kafka到HDFS的kettle任務指令碼
2024-04-17
Kafka指令碼
Linux 中 Laravel 任務排程不執行
2020-06-09
LinuxLaravel
真香！SpringBoot官方支援任務排程框架了！
2020-11-01
Spring Boot框架
Aloha：一個分散式任務排程框架
2019-03-23
分散式框架
中介軟體---分散式任務排程---Celery
2019-02-17
分散式
任務排程的並行演算法
2018-04-03
並行演算法

【Spark篇】---Spark資源排程和任務排程

相關文章