Spark工作流程

13545163656發表於2018-08-23

一、Spark架構組成圖:



  待補充......

  • ..............

  • ..............

  • ......................









Glossary

The following table summarizes terms you’ll see used to refer to cluster concepts:

Term Meaning
Application 基於Spark的使用者程式 (建立了一個SparkContext ) .由一個 driver  程式 和N個 executor  程式  on the cluster模式下.
Application jar Spark包含的jar包
Driver program 一個Driver程式執行  main() 方法,建立一個SparkContext
Cluster manager

提交叢集(--master local/standalone/on yarn)模式下的資源管理(提交設定code memory....)

Deploy mode 區分Driver程式在什麼地方cluster or client, 主要區別 是Driver在本地還是叢集的Container裡
Worker node 執行Spark程式碼的應用程式的節點(standalone模式概念),在(on yarn)模式下是NodeManager
Executor 一個Executor程式,執行在Container裡,能夠執行我們Task,儲存資料到記憶體裡或者磁碟上,每一個應用程式有自己獨立的Executor
Task 最小的工作單元,Driver傳送程式碼到Executor然後Task執行
Job

每一個Action就會產生job(map,conllect)

Stage 每個Job被拆成Task集合,遇到shuffle會stage+1


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2212637/,如需轉載,請註明出處,否則將追究法律責任。

相關文章