spark簡單介紹(一)

welchang發表於2021-09-09

一,spark歷史

誕生於2009年,加州大學伯克利分校RAD實驗室的一個研究專案,最初是基於Hadoop Mapreduce 的,

發現Mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。

2010年3月份spark開源

2011年AMP實驗室在spark上開發高階元件,例如:spark Streaming

2013年轉移到了Apache下,不就成了頂級專案

二,spark特點

    1,spark是快速的: spark擴充了Mapreduce計算模型,spark是基於記憶體的運算;

    2,spark是通用的:spark的設計容納了其他分散式系統擁有的功能,批處理,迭代式計算,互動查詢和流處理等,

優點:降低了維護成本。

三,spark元件

   spark包括多個緊密整合的元件

圖片描述

Spark Core:

包含spark的基本功能,包括任務排程,記憶體管理,容錯機制等,

內部定義了RDDs(彈性分散式資料集)

提供了很多APi來建立和操控這些RDDs

為其他元件提供底層的服務

Spark SQL :

spark處理結構化資料的庫,就行mysql,hive sql 一樣,

企業中用來做報表統計

Spark Streaming:

實時資料流處理元件,類似storm

其提高了api來提供實時流資料

企業主用來從kafka接受資料做實時統計

Mlib:

一個包含通用機器學習功能的包,Machine learning lib,

包含分類,聚類,歸類等,還包括模型評估和資料匯入,都支援叢集橫向擴充套件

Graphx:

圖形處理的庫,並進行圖的並行運算,像spark sql ,spark Streaming 一樣,它也繼承了RDDs API

    提供了各種圖的操作,和常用的圖演算法,例如:PangeRank演算法,

應用場景:圖計算

Cluster Managers :

    叢集管理,spark自帶一個叢集管理是單獨排程器,常見的叢集管理包括 Hadoop YARN , Apache mesos



作者:Alukar
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4830/viewspace-2816063/,如需轉載,請註明出處,否則將追究法律責任。