spark簡單介紹(一)
一,spark歷史
誕生於2009年,加州大學伯克利分校RAD實驗室的一個研究專案,最初是基於Hadoop Mapreduce 的,
發現Mapreduce在迭代式計算和互動式上低效,引入了記憶體儲存。
2010年3月份spark開源
2011年AMP實驗室在spark上開發高階元件,例如:spark Streaming
2013年轉移到了Apache下,不就成了頂級專案
二,spark特點
1,spark是快速的: spark擴充了Mapreduce計算模型,spark是基於記憶體的運算;
2,spark是通用的:spark的設計容納了其他分散式系統擁有的功能,批處理,迭代式計算,互動查詢和流處理等,
優點:降低了維護成本。
三,spark元件
spark包括多個緊密整合的元件
Spark Core:
包含spark的基本功能,包括任務排程,記憶體管理,容錯機制等,
內部定義了RDDs(彈性分散式資料集)
提供了很多APi來建立和操控這些RDDs
為其他元件提供底層的服務
Spark SQL :
spark處理結構化資料的庫,就行mysql,hive sql 一樣,
企業中用來做報表統計
Spark Streaming:
實時資料流處理元件,類似storm
其提高了api來提供實時流資料
企業主用來從kafka接受資料做實時統計
Mlib:
一個包含通用機器學習功能的包,Machine learning lib,
包含分類,聚類,歸類等,還包括模型評估和資料匯入,都支援叢集橫向擴充套件
Graphx:
圖形處理的庫,並進行圖的並行運算,像spark sql ,spark Streaming 一樣,它也繼承了RDDs API
提供了各種圖的操作,和常用的圖演算法,例如:PangeRank演算法,
應用場景:圖計算
Cluster Managers :
叢集管理,spark自帶一個叢集管理是單獨排程器,常見的叢集管理包括 Hadoop YARN , Apache mesos
作者:Alukar
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4830/viewspace-2816063/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Spark介紹Spark
- SVG簡單介紹SVG
- HTML簡單介紹HTML
- ActiveMQ簡單介紹MQ
- HTML 簡單介紹HTML
- JavaScript 簡單介紹JavaScript
- CSS 簡單介紹CSS
- SCSS 簡單介紹CSS
- UICollectionView 簡單介紹UIView
- css簡單介紹CSS
- 簡單介紹一下 JSONJSON
- Spark概念介紹Spark
- RPC簡單介紹RPC
- Webpack 的簡單介紹Web
- Flutter key簡單介紹Flutter
- Python簡單介紹Python
- <svg>元素簡單介紹SVG
- Git_簡單介紹Git
- JSON簡單介紹JSON
- 簡單介紹克隆 JavaScriptJavaScript
- 簡單介紹 ldd 命令
- javascript物件簡單介紹JavaScript物件
- CSS OOCSS簡單介紹CSS
- CSS SMACSS簡單介紹CSSMac
- CSS BEM簡單介紹CSS
- javascript this指向簡單介紹JavaScript
- javascript加密簡單介紹JavaScript加密
- nodejs簡單介紹NodeJS
- Promise的簡單介紹Promise
- CFRunloopObserverRef 的簡單介紹OOPServer
- SQL JOIN 簡單介紹SQL
- oracle lob 簡單介紹Oracle
- Oracle鎖簡單介紹Oracle
- ORACLE 鎖簡單介紹Oracle
- javascript一元運算子簡單介紹JavaScript
- 深入淺出JMS(一)——JMS簡單介紹
- spark相關介紹-提取hive表(一)SparkHive
- 簡單介紹JavaScript閉包JavaScript