餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹

weixin_45810046發表於2020-11-18

原文網址 : https://blog.csdn.net/weixin_45810046/article/details/109764346

Spark是什麼

Spark是資料處理引擎，Hadoop的YARN是叢集管理的元件，HDFS是資料儲存的元件，MapReduce是資料處理的引擎。通常一套大資料解決方案包括了很多元件，有儲存、計算、MapReduce、Spark等等。Spark做資料處理引擎，可以說是給你一個計算平臺，承擔上面的計算任務或者演算法，由自己提供的，而在資料處理框架之上是需要一套分析軟體，那麼這套分析軟體是根據業務特點去程式設計的。Spark是生態系統，Spark有資料處理引擎，同時在引擎之上做流處理，應用範圍越來越廣。Spark的突出特點是使用了記憶體運算和基於docker、基於計算圖的方式去表述應用。

Spark是大一統的資料處理引擎

在這裡插入圖片描述

這幅圖展示了Spark包括了的元件。Spark進入SQL，Datasets，DataFrames提供了結構化分析手段。Structured Streaming是處理流資料，關係型的查詢就用SQL去處理流式資料。這兩個包括了現在資料處理引擎的兩個重要特點，第一個特點是處理結構化資料，將資料抽象成結構化資料。第二個特點是Structured流處理方式，流處理是實時大資料的一個核心理論。RDD是Spark發展初期一個重要的概念，彈性的資料集，進入這種資料集去構架Spark引擎，即將被其他的API所替代，比如Spark SQL，因為Spark SQL可以獲得更高的效能。Spark Streaming也是Spark初期流處理的API框架，但是隨著流處理理論的發展，這種API已經不適合現在流處理的發展了，Structured Streaming代替了Spark Streaming。MLlib是機器學習和GraphX是處理圖。這些涵蓋了大資料引擎的基本結構，批處理、流處理和圖處理就是Spark是大一統的資料處理引擎的核心。

為什麼不選擇RDD

RDD是核心的但是是老的API，Flink的核心框架就是Datasets和DataFrames，所有的資料抽象成一個集合或者一個流。RDD這種彈性的資料集不能讓使用者更理解內部機制或者更好的使用這個軟體。所以說Spark選擇將隱藏起來，而推出做流處理和批處理相應API的重要原因。無法判斷是Flink學習了Spark還是Spark學習了Flink，我們得不出這個結論，但是，從現在大資料發展的理論上看，Dataset和DataStream這兩種抽象是我們分析引擎的核心主流思想，都需要向著兩個思想去融合，Spark也做到了這一點，這是為什麼不選擇RDD作為Spark主要API提供給使用者的原因。

詳細學習內容可觀看Spark快速大資料處理掃一掃~~~或者引擎搜尋Spark餘海峰

在這裡插入圖片描述

大資料學習，大資料發展趨勢和Spark介紹
2018-10-17
大資料Spark
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
Spark大資料處理框架入門(單機版)
2021-05-21
Spark大資料框架
資料演算法 Hadoop/Spark大資料處理---第十六章
2018-07-08
演算法HadoopSpark大資料
spark處理json資料Demo
2019-02-26
SparkJSON
大資料基礎學習-9.Spark2.1.1
2018-04-29
大資料Spark
資料演算法 Hadoop/Spark大資料處理---第十二章
2018-07-08
演算法HadoopSpark大資料
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
《Spark 3.0大資料分析與挖掘：基於機器學習》簡介
2022-03-20
Spark大資料機器學習
好程式設計師大資料學習路線分享spark之Scala
2019-08-16
程式設計師大資料Spark
帶你入坑大資料（三） --- MapReduce介紹
2019-11-22
大資料
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
springboot對接spark大資料
2024-04-17
Spring BootSpark大資料
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
《Hadoop+Spark大資料分析實戰》簡介
2022-07-27
HadoopSpark大資料
Spark學習——資料傾斜
2019-05-04
Spark
tomaztk/Spark-for-data-engineers：面向資料工程師的Apache Spark學習教程
2021-12-22
Spark工程師Apache
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
[大資料] Spark架構詳解
2018-08-02
大資料Spark架構
大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
spark基本概念（便於自己隨時查閱–摘自Spark快速大資料分析）
2018-05-08
Spark大資料
好程式設計師大資料培訓分享Spark技術總結
2020-06-18
程式設計師大資料Spark
Spark如何與深度學習框架協作，處理非結構化資料
2020-06-18
Spark深度學習框架
阿里巴巴資深大資料工程師：大資料處理實踐
2018-06-11
阿里大資料工程師
大資料如何學習，大資料工程師學習經驗分享
2018-11-06
大資料工程師
大資料處理流程包括哪些環節
2024-01-25
大資料
從BAT大資料工程師那裡總結的大資料學習方法
2019-05-23
BAT大資料工程師
好程式設計師大資料培訓分享spark之Scala
2020-06-04
程式設計師大資料Spark
大資料開發-Spark Join原理詳解
2021-02-09
大資料Spark
Spark在處理資料的時候，會將資料都載入到記憶體再做處理嗎？
2021-02-22
Spark記憶體
如何快速入門Spark——千鋒大資料教程免費領取
2019-12-19
Spark大資料
4個步驟帶你搞定大資料，Linux到大資料學習路線資料（絕對必看）
2019-07-02
大資料Linux
想學習大資料？這才是完整的大資料學習體系
2019-05-11
大資料
大資料學習資料
2022-11-22
大資料
好程式設計師大資料教程分享Spark快速入門（72集影片+原始碼+筆記）
2019-11-23
程式設計師大資料Spark原始碼筆記
[大資料][機器學習]之Model Card（模型卡片）介紹
2024-07-09
大資料機器學習模型

餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹

Spark是什麼

Spark是大一統的資料處理引擎

為什麼不選擇RDD

相關文章