Spark原理-物理執行圖
物理圖的意義
誰來計算RDD呢
Task
Task如何設計
1 . 第一個想法,每個RDD 的每個分割槽都對應一個Task
2 . 第二個想法,用一個Task計算所有RDD 中對應的分割槽
3 . 這兩個想法都有問題,分階段,採用資料流動的模型來進行設計
階段怎麼劃分
階段 + Task 就是執行RDD 的執行者
總結
資料是如何流動的
- 資料計算髮生在需要資料的地方,FinalRDD
- 第一個獲取資料的 RDD 是 firstRDD
小案例
val firstRdd = sc.parallelize(Seq("spark flink", "docker k8s", "spark docker"))
val splitRdd = firstRdd.flatMap(_.split(" "))
val reduceRdd = splitRdd.map((_, 1)).reduceByKey(_ + _)
val mapRdd = reduceRdd.map(item => s"${item._1},${item._2}")
mapRdd.foreach(println(_))
執行過程
相關文章
- Spark的執行原理Spark
- spark執行原理、模型Spark模型
- 【Spark】 Spark作業執行原理--獲取執行結果Spark
- Spark開發-spark執行原理和RDDSpark
- Spark開發-Spark執行模式及原理一Spark模式
- spark基礎之spark sql執行原理和架構SparkSQL架構
- Spark修煉之道(進階篇)——Spark入門到精通:第七節 Spark執行原理Spark
- 圖解Java執行緒池原理圖解Java執行緒
- Spark資料收藏--------Spark執行架構Spark架構
- spark學習筆記--叢集執行SparkSpark筆記
- Spark學習(一)——執行模式與執行流程Spark模式
- 如何執行 Angular library 的原理圖 SchematicsAngular
- Dive into TensorFlow系列(1)-靜態圖執行原理
- 《深入理解Spark》之Spark的整體執行流程Spark
- 檢視spark程式執行狀態以及安裝sparkSpark
- CLR執行原理
- Yarn執行原理Yarn
- 自適應查詢執行:在執行時提升Spark SQL執行效能SparkSQL
- Spark叢集和任務執行Spark
- spark job執行引數優化Spark優化
- 驗證物理備庫是否執行正常
- Java 執行緒池執行原理分析Java執行緒
- 圖解通訊原理(乙太網通訊及物理層工作原理)圖解
- MySQL 執行原理【表】MySql
- SpringMVC執行原理SpringMVC
- 前端-JavaScript執行原理前端JavaScript
- HDFS的執行原理
- 執行緒池原理執行緒
- browserify執行原理分析
- 《微機執行原理》
- Locust 執行原理分析
- Spark2 jar包執行完成,退出spark,釋放資源SparkJAR
- Java併發(四)----執行緒執行原理Java執行緒
- 圖解JVM記憶體模型及JAVA程式執行原理圖解JVM記憶體模型Java
- Spark的工作原理Spark
- Java執行緒池二:執行緒池原理Java執行緒
- MySQL 執行原理【事務】MySql
- 瀏覽器執行原理瀏覽器