Spark----RDD運算元分類 DAG

T D Z發表於2020-12-23

原文網址 : https://blog.csdn.net/weixin_51077563/article/details/111570276

RDD的運算元的分類

Transformation: 即轉換運算元,呼叫轉換運算元會生成一個新的RDD, Transformation是 Lazy 的,不會觸發job執行
Action: 行動運算元,呼叫行動運算元會觸發job執行, 本質上是呼叫了sc.runJob方法, 該方法從最後一個RDD,根據
其依賴關係,從後往前,劃分Stage,生成一個TaskSet
1.建立RDD的方法
(1)通過並行化方式,將Dirver端的集合轉成RDD ,可以指定分割槽的數量

val rdd: RDD[Int] = sc.parallelize(arr)
rdd.partitions.length //檢視分割槽數量

(2)從HDFS指定目錄建立RDD ,也可以指定分割槽的數量

val lines: RDD[String] = sc.textFile("hdfs://linux01:8020/log")
rdd.partitions.length //檢視分割槽數量

(2.1)從hdfs中讀取資料分割槽數量 : 預設情況下目錄檔案下所有檔案的 totalSize(檔案總大小)/NumSplits (切片數量) 得到 goalSize()
使用檔案大小/goalSize 結果大於1.1 就分為多個切片.
如果想要幾個block塊(檔案)就有幾個分割槽, 在建立rdd時指定計算goalSize的除數為1就可以了
val rdd1 = sc.textFile("hdfs://linux01:8020/wc",1)

DAG 有向無環圖

srage 任務執行階段
一個Stage對應一個TaskSet
一個TaskSet中的Task的數量取決於Stage中最後一個RDD分割槽的數量
dependency
依賴關係，指的是父RDD和子RDD之間的依賴關係
窄依賴：沒有shfuffle產生，多個運算元會被合併到一個Task中，即在一個pipeline中
寬依賴：有shuffle產生，是劃分Stage的依據

【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
spark-運算元-分割槽運算元
2020-11-05
Spark
運算元
2018-11-12
使用運算元控制公式運算
2021-01-05
公式
Laplace分佈運算元開發經驗分享
2023-04-07
Python 影像處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術
2020-06-29
PythonOpenCV
RDD運算元
2020-11-10
運算元據庫
2020-07-23
python運算元據
2024-08-17
Python
JavaScript運算元組
2024-12-02
JavaScript
運算元據庫表
2019-01-23
MySQL DML運算元據
2024-10-22
MySql
jmeter運算元據庫
2024-08-23
JMeter
DDL:運算元據庫
2024-08-30
onnx 運算元定義
2024-07-04
什麼是運算元？
2022-06-25
Flink -- Operator操作運算元
2020-12-23
SIFT運算元總結
2020-12-14
Spark常用Transformations運算元(一)
2018-11-05
SparkORM
Python運算元據庫（3）
2019-01-09
Python
Oracle OCP(10)：運算元據
2019-01-22
Oracle
sobel運算元，matlab實現
2018-09-11
Matlab
3.0 常見operators運算元
2024-04-16
js 方法(運算元組為主
2019-03-21
JS
利用 Sequelize 來運算元據庫
2019-03-01
spark一些常用運算元
2018-10-10
Spark
Ascend C 自定義PRelu運算元
2024-04-08
三元運算+包機制
2024-03-17
深入淺出PyTorch（運算元篇）
2020-06-22
PyTorch
Spark RDD運算元（八）mapPartitions， mapPartitionsWithIndex
2020-11-16
SparkAPPIndex
Ascend C運算元開發指南
2024-07-28
Flink - 運算元鏈合併方法
2023-03-24
python中Laplacian運算元如何使用
2021-09-11
Python
java 運算元據庫備份
2021-09-23
Java
Python學習：運算元據庫
2020-12-28
Python
Python 影像處理 OpenCV （13）： Scharr 運算元和 LOG 運算元邊緣檢測技術
2020-07-11
PythonOpenCV
影像濾波演算法整理--均值、中值、高斯、拉普拉斯運算元、梯度運算元:
2020-12-01
演算法梯度
7-2 一元多項式的乘法與加法運算（20 分）
2018-10-01

Spark----RDD運算元分類 DAG

RDD的運算元的分類

DAG 有向無環圖

相關文章