spark簡單介紹(一)
一,spark歷史
誕生於2009年,加州大學伯克利分校RAD實驗室的一個研究專案,最初是基於Hadoop Mapreduce 的,
發現Mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。
2010年3月份spark開源
2011年AMP實驗室在spark上開發高階元件,例如:spark Streaming
2013年轉移到了Apache下,不就成了頂級專案
二,spark特點
1,spark是快速的: spark擴充了Mapreduce計算模型,spark是基於記憶體的運算;
2,spark是通用的:spark的設計容納了其他分散式系統擁有的功能,批處理,迭代式計算,互動查詢和流處理等,
優點:降低了維護成本。
三,spark元件
spark包括多個緊密整合的元件
Spark Core:
包含spark的基本功能,包括任務排程,記憶體管理,容錯機制等,
內部定義了RDDs(彈性分散式資料集)
提供了很多APi來建立和操控這些RDDs
為其他元件提供底層的服務
Spark SQL :
spark處理結構化資料的庫,就行mysql,hive sql 一樣,
企業中用來做報表統計
Spark Streaming:
實時資料流處理元件,類似storm
其提高了api來提供實時流資料
企業主用來從kafka接受資料做實時統計
Mlib:
一個包含通用機器學習功能的包,Machine learning lib,
包含分類,聚類,歸類等,還包括模型評估和資料匯入,都支援叢集橫向擴充套件
Graphx:
圖形處理的庫,並進行圖的並行運算,像spark sql ,spark Streaming 一樣,它也繼承了RDDs API
提供了各種圖的操作,和常用的圖演算法,例如:PangeRank演算法,
應用場景:圖計算
Cluster Managers :
叢集管理,spark自帶一個叢集管理是單獨排程器,常見的叢集管理包括 Hadoop YARN , Apache mesos
作者:Alukar
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4830/viewspace-2816063/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 簡單介紹一下 JSONJSON
- Azure Table Storage(一) : 簡單介紹
- RPC簡單介紹RPC
- Python簡單介紹Python
- KVM簡單介紹
- RMI簡單介紹
- HTML簡單介紹HTML
- HTML 簡單介紹HTML
- JavaScript 簡單介紹JavaScript
- CSS 簡單介紹CSS
- ajax簡單介紹
- SVG簡單介紹SVG
- Clickjacking簡單介紹
- 【Pandas】簡單介紹
- Map簡單介紹
- JSON簡單介紹JSON
- ActiveMQ簡單介紹MQ
- Git_簡單介紹Git
- jQuery Validate簡單介紹jQuery
- JSON物件簡單介紹JSON物件
- <svg>元素簡單介紹SVG
- 簡單介紹 ldd 命令
- 禪道簡單介紹
- Webpack 的簡單介紹Web
- Apache Curator簡單介紹Apache
- Flutter key簡單介紹Flutter
- 簡單介紹克隆 JavaScriptJavaScript
- AOP的簡單介紹
- Ansible(1)- 簡單介紹
- Flownet 介紹 及光流的簡單介紹
- form表單的簡單介紹ORM
- spark相關介紹-提取hive表(一)SparkHive
- canvas標籤簡單介紹Canvas
- Git發展簡單介紹Git
- mt19937 簡單介紹
- mitmproxy中libmproxy簡單介紹MITIBM
- 函子的簡單介紹
- 元學習簡單介紹