Spark適用於哪些場景?不適用於哪些場景?
Spark是一種通用的大資料計算框架,和傳統的大資料技術MapReduce有本質區別。前者是基於記憶體平行計算的框架,而mapreduce側重磁碟計算。Spark是加州大學伯克利分校AMP實驗室開發的通用記憶體平行計算框架,用於構建大型的、低延遲的資料分析應用程式。
Spark同樣支援離線計算和實時計算兩種模式。Spark離線計算速度要比Mapreduce快10-100倍。而實時計算方面,則依賴於SparkStreaming的批處理能力,吞吐量大。不過相比Storm,SparkStreaming並不能做到真正的實時。
Spark 適用於哪些場景?
從 Spark的設計理念(基於記憶體的迭代計算框架)出發,其最適合有迭代運算的或者需要多次操作特定資料集的應用場合。並且迭代次數越多,讀取的資料量越大,Spark的應用效果就越明顯。
因此,對於機器學習之類的 “迭代式”應用,Spark可謂拿手好戲,要比HadoopMapReduce快數十倍。另外,SparkStreaming因為記憶體儲存中間資料的特性,處理速度非常快,也可以應用於需要實時處理大資料的場合。
Spark 不適用於哪些場景?
對於那種非同步細粒度更新狀態的應用,例如 Web服務的儲存或增量的Web爬蟲和索引,也就是對於那種增量修改的應用模型不適合。gendan5.com/zs/djia.html
Spark也不適合做超級大的資料量的處理,這裡所說的“超級大”是相對於這個叢集的記憶體容量而言的,因為Spark要將資料儲存在記憶體中。一般來說,10TB以上(單次分析)的資料就可以算是“超級大”的資料了。
運用 Spark有哪些優勢呢?
1、高效性
不同於 MapReduce將中間計算結果放入磁碟中,Spark採用記憶體儲存中間計算結果,減少了迭代運算的磁碟IO,並透過平行計算DAG圖的最佳化,減少了不同任務之間的依賴,降低了延遲等待時間。記憶體計算下,Spark 比 MapReduce 快100倍。
2、易用性
不同於 MapReduce僅支援Map和Reduce兩種程式設計運算元,Spark提供了超過80種不同的Transformation和Action運算元,如map,reduce,filter,groupByKey,sortByKey,foreach等,並且採用函數語言程式設計風格,實現相同的功能需要的程式碼量極大縮小。
3、通用性
Spark提供了統一的解決方案。Spark可以用於批處理、互動式查詢(Spark SQL)、實時流處理(Spark Streaming)、機器學習(Spark MLlib)和圖計算(GraphX)。
4、相容性
Spark能夠跟很多開源工程相容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和排程器,並且Spark可以讀取多種資料來源,如HDFS、HBase、MySQL等。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2910507/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- CDN適用哪些場景?
- 低程式碼適用於哪些應用開發場景
- 物件儲存適用於哪些場景?這5個場景皆可使用!物件
- 企業雲盤適用哪些應用場景
- NIO是什麼?適用於何種場景?
- 區塊鏈不適用的若干場景區塊鏈
- INDEX SKIP SCAN適用場景Index
- Linux系統有哪些常用的網路命令,分別適用於什麼場景?Linux
- 說說HTTP 常見的狀態碼有哪些,適用場景?HTTP
- Streaming特性和適用場景
- 設計模式適用場景整理設計模式
- SPM適用的場景和示例
- ClickHouse(01)什麼是ClickHouse,ClickHouse適用於什麼場景
- MongoDB的優勢和適用場景MongoDB
- 阿里雲伺服器ECS適合哪些場景?阿里伺服器
- 移動CRM都有哪些應用場景?
- 區塊鏈應用場景有哪些?區塊鏈
- BITMAP CONVERSION FROM ROWIDS 適用場景
- 索引設計(組合索引適用場景)索引
- 雲虛擬主機運用於哪些場景中?怎麼選?
- Kafka和RabbitMQ有哪些區別,各自適合什麼場景?KafkaMQ
- 多卡聚合裝置將適用於更多5G網路應用場景
- 淺析智慧交通有哪些應用場景?
- 圖資料庫有哪些應用場景?資料庫
- list與Set、Map區別及適用場景
- 全息投影技術所適用的場景分析
- 企業API閘道器適用業務場景API
- 談談 Redux 與 Mobx 思想的適用場景Redux
- 本地索引和全域性索引的適用場景索引
- 美顏濾鏡SDK有哪些應用場景?
- js裝飾者模式有哪些應用場景JS模式
- 動態IP代理的應用場景有哪些?
- IP歸屬地的應用場景有哪些?
- 輪換代理介紹及適用場景介紹
- 機械硬碟與固態硬碟的適用場景硬碟
- 自定義npm模組包——打包後適用多場景NPM
- TokuDB的優缺點和適用場景介紹
- NodeJS優缺點及適用場景討論NodeJS