Spark中資源排程和任務排程

lmandcc發表於2021-11-12

原文網址 : https://www.cnblogs.com/lmandcc/p/15546418.html

Spark

Spark比MR快的原因

1、Spark基於記憶體的計算

2、粗粒度資源排程

3、DAG有向無環圖：可以根據寬窄依賴劃分出可以平行計算的task

細粒度資源排程

MR是屬於細粒度資源排程
優點：每個task執行的時候單獨申請資源，資源被充分利用
缺點：task啟動速度慢

粗粒度資源排程

Spark是屬於粗粒度資源排程
優點：一次性將所有需要的資源都申請下來，task後續啟動就不需要額外申請資源，啟動速度非常快
缺點：會造成資源的浪費，因為只有當最後一個task執行完以後資源才會被釋放

資源申請

1、使用spark-sumbit提交任務
2、在提交任務的節點啟動Driver程式：Drive主要負責任務排程
3、Driver程式會向RM申請資源啟動AM
4、RM會隨機分配一臺NM啟動AM
5、AM又會向RM申請資源啟動一批Executor
6、RM會分配資源在NM中啟動Executor
7、Executor啟動後會反向註冊給Drive端

資源排程

1、當遇到一個action運算元的時候，開始觸發一個job進行任務排程
2、根據程式碼，構建DAG有向無環圖
3、DAGScheduler會根據寬窄依賴切分Stage：Stage：是一組可以平行計算的Task
4、會將每個Stage以TaskSet的形式傳送個TaskScheduler
5、TaskScheduler會將Task依次傳送到Executor中執行

Task的重試機制
1、Task如果失敗了，會由TaskScheduler重試3次
2、如果還是失敗了，會由DAGScheduler將Stage重試4次
3、如果出現Shuffle file not found，DAGScheduler會去將上游的Stage進行重試

推測執行
當某個task執行太慢的時候，TaskSchedule會傳送一個一模一樣的task去執行，最終結果誰先執行完就以誰為準

Spark - [03] 資源排程模式
2024-10-11
Spark模式
任務排程
2018-11-24
Timer和TimerTask 任務排程
2018-07-09
Airflow 任務排程
2024-04-24
AI
Laravel 任務排程
2019-11-26
Laravel
分散式任務排程
2019-03-04
分散式
Spring 指南（排程任務）
2019-01-19
Spring
開源公開課丨大資料排程系統 Taier 任務排程介紹
2022-08-22
大資料AI
任務排程的思考和總結
2018-03-31
開源專案推薦 - 巨鯨任務排程平臺（Spark、Flink）
2020-07-26
Spark
Android 中的定時任務排程
2019-03-04
Android
聊聊PowerJob的任務排程
2024-02-15
Linux 定時任務排程
2021-08-17
Linux
分散式排程任務-ElasticJob
2021-06-08
分散式AST
LeetCode 621 任務排程器
2020-12-05
LeetCode
Yarn資源排程
2020-09-23
Yarn
Linux 中 Laravel 任務排程不執行
2020-06-09
LinuxLaravel
Python任務排程模組APScheduler
2019-02-16
Python
LTS分散式任務排程部署
2019-03-09
分散式
linux基礎（四）——任務排程cron和anacron
2018-07-20
Linux
Spring Boot應用中進行任務排程
2019-04-04
Spring Boot
詳解BI系統中的任務排程
2022-03-31
Flink排程之排程器、排程策略、排程模式
2023-03-08
模式
laravel框架任務排程（定時執行任務）
2019-05-11
Laravel框架
Spring排程定時任務的方式
2019-01-13
Spring
力扣-621. 任務排程器
2024-06-22
力扣
Flink - Task 任務排程執行流程
2023-03-25
力扣 621. 任務排程器
2020-12-05
力扣
任務排程框架Quartz快速入門！
2020-12-26
框架quartz
621. 任務排程器（構造）
2020-12-05
開源分散式任務排程系統就選：DolphinScheduler
2023-02-28
分散式
如何在Java中實現非同步任務排程？
2024-07-09
Java非同步
宜信開源微服務任務排程平臺（SIA-TASK）
2019-05-27
微服務
用海豚排程器定時排程從Kafka到HDFS的kettle任務指令碼
2024-04-17
Kafka指令碼
真香！SpringBoot官方支援任務排程框架了！
2020-11-01
Spring Boot框架
Aloha：一個分散式任務排程框架
2019-03-23
分散式框架
中介軟體---分散式任務排程---Celery
2019-02-17
分散式
任務排程的並行演算法
2018-04-03
並行演算法