spark基本概念(便於自己隨時查閱–摘自Spark快速大資料分析)
版權宣告:本文由董可倫首發於https://dongkelun.com,非商業轉載請註明作者及原創出處。商業轉載請聯絡作者本人。 https://blog.csdn.net/dkl12/article/details/80245998
我的原創地址:https://dongkelun.com/2018/01/23/sparkBasicConcept/
1、 RDD
在Spark 中,我們通過對分散式資料集的操作來表達我們的計算意圖,這些計算會自動地在叢集上並行進行。這樣的資料集被稱為彈性分散式資料集(resilient distributed dataset),簡稱RDD。RDD 是Spark 對分散式資料和計算的基本抽象。
RDD 支援兩種操作:轉化操作和行動操作。RDD 的轉化操作是返回一個新的RDD 的操作,比如map() 和filter(),而行動操作則是向驅動器程式返回結果或把結果寫入外部系統的操作,會觸發實際的計算,比如count() 和first()。Spark 對待轉化操作和行動操作的方式很不一樣,因此理解你正在進行的操作的型別是很重要的。如果對於一個特定的函式是屬於轉化操作還是行動操作感到困惑,你可以看看它的返回值型別:轉化操作返回的是RDD,而行動操作返回的是其他的資料型別。
2、 惰性求值
Spark 使用惰性求值,這樣就可以把一些操作合併到一起來減少計算資料的步驟。在類似Hadoop MapReduce 的系統中,開發者常常花費大量時間考慮如何把操作組合到一起,以減少MapReduce 的週期數。而在Spark 中,寫出一個非常複雜的對映並不見得能比使用很多簡單的連續操作獲得好很多的效能。因此,使用者可以用更小的操作來組織他們的程式,這樣也使這些操作更容易管理。
相關文章
- [大資料之Spark]——快速入門大資料Spark
- 大資料開發-Spark-初識Spark-Graph && 快速入門大資料Spark
- 基於 Spark 的資料分析實踐Spark
- 《Hadoop+Spark大資料分析實戰》簡介HadoopSpark大資料
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- Spark資料分析概念入門Spark
- Spark文件閱讀之一:Spark OverviewSparkView
- 《Spark 3.0大資料分析與挖掘:基於機器學習》簡介Spark大資料機器學習
- springboot對接spark大資料Spring BootSpark大資料
- 【大資料】Spark RDD基礎大資料Spark
- 每週一書《Spark與Hadoop大資料分析》分享!SparkHadoop大資料
- 大資料學習路線教程圖,如何快速入門Spark大資料Spark
- 大資料Spark叢集模式配置大資料Spark模式
- [大資料] Spark架構詳解大資料Spark架構
- 大資料實踐解析(下):Spark的讀寫流程分析大資料Spark
- 餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹大資料Spark
- 如何快速入門Spark——千鋒大資料教程免費領取Spark大資料
- Spark 快速入門Spark
- 大資料學習—Spark核心概念RDD大資料Spark
- 大資料Storm相比於Spark、Hadoop有哪些優勢(摘錄)大資料ORMSparkHadoop
- 【Spark篇】---Spark解決資料傾斜問題Spark
- 大資料開發-Spark Join原理詳解大資料Spark
- spark大綱Spark
- Spark RPC框架原始碼分析(三)Spark心跳機制分析SparkRPC框架原始碼
- 基於Spark對消費者行為資料進行資料分析開發案例Spark
- Spark UI (基於Yarn) 分析與定製SparkUIYarn
- Spark讀取MySQL資料SparkMySql
- spark寫入hive資料SparkHive
- 大資料基礎學習-9.Spark2.1.1大資料Spark
- 大資料學習,大資料發展趨勢和Spark介紹大資料Spark
- Spark流教程 :使用 Apache Spark 的Twitter情緒分析SparkApache
- Flume+Spark+Hive+Spark SQL離線分析系統SparkHiveSQL
- 使用Apache Spark和Apache Hudi構建分析資料湖ApacheSpark
- Spark 原始碼分析系列Spark原始碼
- Spark+Kafka實時監控Oracle資料預警SparkKafkaOracle
- Spark讀取elasticsearch資料指南SparkElasticsearch
- Spark學習——資料傾斜Spark
- spark讀取hbase的資料Spark