Glossary

The following table summarizes terms you’ll see used to refer to cluster concepts:

Term	Meaning
Application	基於Spark的使用者程式 (建立了一個SparkContext ) .由一個 *driver* 程式和N個 *executor* 程式 on the cluster模式下.
Application jar	Spark包含的jar包
Driver program	一個Driver程式執行 main() 方法,建立一個SparkContext
Cluster manager	提交叢集(--master local/standalone/on yarn)模式下的資源管理(提交設定code memory....)
Deploy mode	區分Driver程式在什麼地方cluster or client, 主要區別是Driver在本地還是叢集的Container裡
Worker node	執行Spark程式碼的應用程式的節點(standalone模式概念),在(on yarn)模式下是NodeManager
Executor	一個Executor程式,執行在Container裡,能夠執行我們Task,儲存資料到記憶體裡或者磁碟上，每一個應用程式有自己獨立的Executor
Task	最小的工作單元,Driver傳送程式碼到Executor然後Task執行
Job	每一個Action就會產生job(map,conllect)
Stage	每個Job被拆成Task集合,遇到shuffle會stage+1

Spark工作流程