spark基本概念（便於自己隨時查閱–摘自Spark快速大資料分析）

董可倫發表於2018-05-08

原文網址 : https://flycode.co/archives/144195

版權宣告：本文由董可倫首發於https://dongkelun.com，非商業轉載請註明作者及原創出處。商業轉載請聯絡作者本人。 https://blog.csdn.net/dkl12/article/details/80245998

我的原創地址：https://dongkelun.com/2018/01/23/sparkBasicConcept/

1、 RDD

在Spark 中，我們通過對分散式資料集的操作來表達我們的計算意圖，這些計算會自動地在叢集上並行進行。這樣的資料集被稱為彈性分散式資料集（resilient distributed dataset），簡稱RDD。RDD 是Spark 對分散式資料和計算的基本抽象。
RDD 支援兩種操作：轉化操作和行動操作。RDD 的轉化操作是返回一個新的RDD 的操作，比如map() 和filter()，而行動操作則是向驅動器程式返回結果或把結果寫入外部系統的操作，會觸發實際的計算，比如count() 和first()。Spark 對待轉化操作和行動操作的方式很不一樣，因此理解你正在進行的操作的型別是很重要的。如果對於一個特定的函式是屬於轉化操作還是行動操作感到困惑，你可以看看它的返回值型別：轉化操作返回的是RDD，而行動操作返回的是其他的資料型別。

2、惰性求值

Spark 使用惰性求值，這樣就可以把一些操作合併到一起來減少計算資料的步驟。在類似Hadoop MapReduce 的系統中，開發者常常花費大量時間考慮如何把操作組合到一起，以減少MapReduce 的週期數。而在Spark 中，寫出一個非常複雜的對映並不見得能比使用很多簡單的連續操作獲得好很多的效能。因此，使用者可以用更小的操作來組織他們的程式，這樣也使這些操作更容易管理。

[大資料之Spark]——快速入門
2019-03-17
大資料Spark
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
基於 Spark 的資料分析實踐
2019-06-19
Spark
《Hadoop+Spark大資料分析實戰》簡介
2022-07-27
HadoopSpark大資料
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
Spark資料分析概念入門
2018-07-21
Spark
Spark文件閱讀之一：Spark Overview
2020-06-15
SparkView
《Spark 3.0大資料分析與挖掘：基於機器學習》簡介
2022-03-20
Spark大資料機器學習
springboot對接spark大資料
2024-04-17
Spring BootSpark大資料
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
每週一書《Spark與Hadoop大資料分析》分享！
2019-03-15
SparkHadoop大資料
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
[大資料] Spark架構詳解
2018-08-02
大資料Spark架構
大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
大資料實踐解析（下）：Spark的讀寫流程分析
2021-09-11
大資料Spark
餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹
2020-11-18
大資料Spark
如何快速入門Spark——千鋒大資料教程免費領取
2019-12-19
Spark大資料
Spark 快速入門
2019-04-24
Spark
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)
2018-06-01
大資料ORMSparkHadoop
【Spark篇】---Spark解決資料傾斜問題
2018-03-04
Spark
大資料開發-Spark Join原理詳解
2021-02-09
大資料Spark
spark大綱
2020-12-01
Spark
Spark RPC框架原始碼分析（三）Spark心跳機制分析
2019-01-17
SparkRPC框架原始碼
基於Spark對消費者行為資料進行資料分析開發案例
2023-11-10
Spark
Spark UI (基於Yarn) 分析與定製
2021-09-09
SparkUIYarn
spark寫入hive資料
2019-04-09
SparkHive
Spark讀取MySQL資料
2020-12-31
SparkMySql
大資料基礎學習-9.Spark2.1.1
2018-04-29
大資料Spark
大資料學習，大資料發展趨勢和Spark介紹
2018-10-17
大資料Spark
Flume+Spark+Hive+Spark SQL離線分析系統
2018-09-18
SparkHiveSQL
Spark流教程：使用 Apache Spark 的Twitter情緒分析
2021-12-29
SparkApache
使用Apache Spark和Apache Hudi構建分析資料湖
2020-06-15
ApacheSpark
Spark 原始碼分析系列
2019-07-28
Spark原始碼
Spark+Kafka實時監控Oracle資料預警
2021-02-03
SparkKafkaOracle
spark讀取hbase的資料
2019-04-05
Spark
spark處理json資料Demo
2019-02-26
SparkJSON
Spark學習——資料傾斜
2019-05-04
Spark

spark基本概念（便於自己隨時查閱–摘自Spark快速大資料分析）

1、 RDD

2、 惰性求值

相關文章

2、惰性求值