Spark資料分析概念入門

我勒個去發表於2018-07-21

原文網址 : https://flycode.co/archives/98799

Spark

原文地址:

http://blog.52sox.com/Spark-d…

在大資料的時代,資料的各種術語層出不窮,比如資料倉儲、資料湖,還有比較熱門的Hadoop、Spark,讓人眼花繚亂。在這裡,我們主要介紹的是Spark,從巨集觀的角度來介紹Spark到底是什麼。
我們將解決如下幾個簡單的問題:

Spark是什麼
Spark的組成
Spark的使用者和用途

下面我們分別進行敘述。

Spark是什麼

首先,我們開始第1個簡單的問題,Spark是什麼?
Spark是什麼,Spark是1個用來實現快速而通用的叢集計算的平臺。
在速度方面,Spark擴充套件了廣泛使用的MapReduce計算模型,高效地支援更多計算模型,包括互動式查詢和流處理,並能夠在記憶體中進行計算。
總的來說,Spark適用於各種各樣原先需要在多種不同的分散式平臺下的場景,包括批處理、互動式查詢、流處理。並通過1個統一的框架支援這些不同的計算,大大減輕了原先需要對各種平臺分別管理的負擔。
另外,Spark還提供了豐富的介面(支援Python、Java、Scala)和程式庫外,還能與其他大資料工具密切配合使用,例如執行在Hadoop叢集上。

Spark的組成

Spark專案包含多個緊密整合的元件,其核心是1個可以對很多計算任務、多個工作機器或計算叢集上的應用進行排程、分發以及監控的計算引擎。
其各個元件主要包括:

Spark Core,Spark的基本功能,包括任務排程、記憶體管理、錯誤恢復與儲存系統互動等模組,另外還有RDD(對彈性分散式資料集,resilient distributed dataset)的API定義
Spark SQL,Spark操作結構化的程式包,用於資料的查詢
Spark Streaming,提供對實時資料進行流式計算的元件
MLib,提供常見機器學習功能的程式庫
GraphX,進行並行圖計算的程式庫
叢集管理器,提供Hadoop YARN,Apache Mesos的支援

Spark的使用者和用途

Spark主要面向兩大目標人群:

資料科學家
工程師

可以用於以下兩方面:

資料科學,更多的主要是資料分析領域,例如統計、機器學習建模、資料轉換
資料處理,通過豐富的介面來快速實現常見的任務以及應用的監視、審查和效能調優

參考書籍:

《Learning Spark:Lightning-fast Data Analysis》P1-6

[大資料之Spark]——快速入門
2019-03-17
大資料Spark
Python資料分析入門
2021-09-09
Python
spark基本概念（便於自己隨時查閱–摘自Spark快速大資料分析）
2018-05-08
Spark大資料
資料分析 | 零基礎入門資料分析（一）：從入門到摔門？
2018-06-21
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
Python資料分析入門(五)
2018-08-27
Python
Python資料分析入門(四)
2018-08-25
Python
Python資料分析入門(一)
2018-08-19
Python
Python資料分析入門(三)
2018-08-23
Python
Python資料分析入門(二)
2018-08-21
Python
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
Python資料分析入門（十四）：資料分析中常用圖
2021-04-10
Python
Spark Streaming入門
2018-05-16
Spark
Spark入門篇
2020-11-04
Spark
Spark 快速入門
2019-04-24
Spark
資料分析師之SQL入門
2021-09-09
SQL
spark寫入hive資料
2019-04-09
SparkHive
Spark SQL | Spark，從入門到精通
2019-01-21
SparkSQL
Hello Spark! | Spark，從入門到精通
2018-09-18
Spark
資料分析基本概念
2020-12-14
R語言入門與資料分析
2024-04-20
R語言
python入門總結(資料分析方向)
2019-09-01
Python
Python入門教程—資料分析工具Pandas
2021-08-11
Python
01_spark入門
2024-07-11
Spark
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
大資料入門課程：Hadoop和spark的效能比較
2018-04-04
大資料HadoopSpark
Spark入門（四）--Spark的map、flatMap、mapToPair
2019-02-28
SparkAPTAI
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
使用 Python 進行資料分析：入門指南
2024-07-26
Python
Python資料分析入門知識手冊
2021-12-13
Python
Python資料分析入門（一）：搭建環境
2021-03-29
Python
如何快速入門Spark——千鋒大資料教程免費領取
2019-12-19
Spark大資料
大資料分散式計算系統 Spark 入門核心之 RDD
2022-03-23
大資料分散式Spark
Spark從入門到放棄——初始Spark（一）
2020-12-09
Spark
第一章 Excel資料分析入門 --（2）Excel匯入資料
2020-10-31
Excel
基於 Spark 的資料分析實踐
2019-06-19
Spark
《R語言入門與資料分析》——向量索引
2020-10-02
R語言索引
【Python入門】Python資料分析最重要的庫！
2021-11-08
Python

Spark資料分析概念入門

Spark是什麼

Spark的組成

Spark的使用者和用途

相關文章