Spark程式碼在叢集上執行過程理解

Just Jump發表於2020-10-10

Spark

spark程式碼是如何在叢集上執行的？

總體上可以概述為4步：

寫DataFrame/Dataset/SQL 程式碼（通過console或spark-submit提交程式碼）
如果程式碼有效，Spark將此轉成邏輯計劃(Logical Plan)
Spark對計劃中的一系列transform操作進行優化，並將邏輯計劃轉成物理計劃(Physical Plan)
Spark在叢集上執行(基於RDD操作的)物理計劃

整體上看，提交的程式碼要通過 Catalyst優化器。它會決定程式碼執不執行，以及具體執行的物理計劃如何，最後程式碼執行完成並返回結果給使用者。

邏輯計劃Logical Planning

spark程式碼執行的第一個階段就是獲取程式碼，並轉成邏輯計劃logical plan。

邏輯計劃只是將使用者提交的一系列表示式轉成最優化的檢視，僅僅表示這一系列抽象的transformation變換，而不涉及執行器executors或驅動器driver。

這個過程是如何實現的呢？都包括哪些步驟？

首先，使用者的程式碼會被轉成未解析的邏輯計劃。未解析的意思是，儘管你的程式碼是合法的，但可能程式碼中引用的表或欄位名是不存在的。

接著，Spark會在分析器(analyzer)中使用catalog倉庫對程式碼中的表和列進行解析。catalog裡存放著所有表、DataFrame資訊。如果發現表或列不存在，分析器會拒絕掉這個未解析的邏輯計劃。

如果能成功解析，那麼解析後的邏輯計劃會被傳入Catalyst 優化器。然後根據一系列的優化規則來優化邏輯計劃，最後生成的是經過優化的邏輯計劃。

物理計劃Physical Planning

當成功建立了優化的邏輯計劃後，Spark就開始了物理計劃過程。

物理計劃也被叫做一個Spark計劃，指邏輯計劃如何在叢集上通過生成不同的物理執行策略和代價比較模型來選擇最佳的執行策略。

物理執行計劃會生成一系列的RDDs和變換。（這個過程類似於編譯，把DataFrame/Datasets/SQL程式設計的變換操作編譯成RDD的變換操作。）

執行Execution

當選擇了一個物理執行計劃後，Spark就開始在RDDs上跑程式碼了。

spark學習筆記--叢集執行Spark
2018-07-12
Spark筆記
Spark叢集和任務執行
2020-11-06
Spark
程式碼精簡執行過程
2024-03-13
xcall叢集執行命令指令碼
2018-11-04
指令碼
Spark 叢集執行任務失敗的故障處理
2023-02-23
Spark
Java 程式執行過程
2024-04-04
Java
javascript引擎執行的過程的理解--執行階段
2019-02-28
JavaScript
ClusterShell：一個在叢集節點上並行執行命令的好工具
2019-07-26
並行
線上定時指令碼執行慢，分析過程
2018-03-15
指令碼
程式語言執行過程
2019-01-26
Spark閉包 | driver & executor程式程式碼執行
2020-11-23
Spark
在叢集環境中執行的Spring計劃排程任務 - Stack Overflow
2020-12-14
Spring
Hadoop-叢集執行
2022-04-04
Hadoop
搭建spark on yarn 叢集
2018-05-03
SparkYarn
Zookeeper原始碼分析（四） —– 叢集模式（replicated）執行
2019-03-03
原始碼模式
Zookeeper原始碼分析（四） ----- 叢集模式（replicated）執行
2018-05-23
原始碼模式
目前對程式、執行緒、協程的理解
2021-03-23
執行緒
TiCDC 原始碼閱讀（三）TiCDC 叢集工作過程解析
2023-01-19
原始碼
《深入理解Spark》之Spark的整體執行流程
2018-08-15
Spark
從認證到排程，K8s 叢集上執行的小程式到底經歷了什麼？
2020-02-17
K8S
原始碼分析OKHttp的執行過程
2018-10-27
原始碼HTTP
淺析Java程式的執行過程
2019-03-04
Java
今天在linux上用perl連線sqlserver，執行儲存過程，獲取一個結果集
2019-05-19
LinuxSQLServer儲存過程
Spark3.0.0叢集搭建
2023-01-28
Spark
在IntelliJ IDEA中建立和執行java/scala/spark程式
2020-05-18
IntelliJIdeaJavaSpark
ELF PHP 可執行程式執行後載入重型指令碼的過程
2021-02-01
PHP行程指令碼
docker下，極速搭建spark叢集(含hdfs叢集)
2022-08-17
DockerSpark
在VSCode上執行Python程式(Mac)
2024-07-09
VSCodePythonMac
spark原始碼之任務提交過程
2018-10-15
Spark原始碼
idea配置dashboard並原始碼啟動叢集執行nacos
2020-12-21
Idea原始碼
IDEA本地執行hadoop程式成功，叢集執行找不到自定義的Mapper類
2020-12-30
IdeaHadoopAPP
通過 HelloWorld 瞭解 Java 程式執行過程以及執行時記憶體
2018-08-28
Java記憶體
spark叢集的配置檔案
2020-12-05
Spark
在K8S中，Worker節點加入叢集的全過程?
2024-10-15
K8S
linux 上 jenkins 透過節點服務在 windows 執行指令碼
2020-11-23
LinuxJenkinsWindows指令碼
jsp的執行過程
2024-03-18
JS
指令的執行過程
2024-08-11
[zebra原始碼]分片語句ShardPreparedStatement執行過程
2021-07-16
原始碼

Spark程式碼在叢集上執行過程理解

spark程式碼是如何在叢集上執行的？

邏輯計劃Logical Planning

物理計劃Physical Planning

執行Execution

相關文章