Apache Spark有何用途?有何特點?

候鳥之戀發表於2022-10-27

Apache Spark是專為大規模資料處理而設計的快速通用的計算引擎。它支援多語言,提供了 Java、Scala、Python 和 R 中的高階 API,以及支援通用執行圖的最佳化引擎。

 

用途:

資料分析:資料分析師主要負責分析資料並建模的人,具備 SQL 統計 預測建模等方面的技能,有一定使用Python和Matlab或者R程式設計的能力。

 

Spark透過一系列元件支援資料分析任務。Spark Shell提供Python和Scala介面來進行互動式資料分析。Spark SQL提供獨立的SQL shell來使用SQL探索資料,也可以透過標準的Spark程式或者Spark shell進行SQL查詢。MLlib程式庫進行機器學習和資料分析。Spark還支援呼叫R或者Matlab外部程式。

 

資料處理:工程師是使用 Spark開發資料處理應用的軟體開發者。他們具備軟體工程概念,能使用工程技術設計軟體系統。

 

Spark為開發用於叢集並執行的程式提供了捷徑。不需要開發者關注分散式問題,網路通訊及程式容錯性。為工程師提供足夠的介面實現常見的任務及對應用監效能調優。

 

特點:

快速性: spark透過使用先進的DAG排程器、查詢最佳化器和物理執行引擎,可以高效能地進行批次及流式處理。使用邏輯迴歸演算法進行迭代計算,spark比hadoop速度快100多倍。

 

通用性: Spark 提供了大量的庫,包括Sark Core、Spark SQL、Spark Steaming、MLlib、GraphX。開發者可以在同一個應用程式中無縫組合使用這些庫。spark構建了一個完善的生態棧,將批次計算、互動式計算、流式計算、機器學習及圖計算整合到一個統一的框架體系中。

 

易用性: Spark提供了80多個高階運算子。gendan5.com/zs/diniw.html

 

多種資源管理器支援: Spark支援Hadoop YARN、Apache Mesos以及自帶的獨立叢集管理器。

 

多資料來源支援: Spark支援訪問HDFS、Alluxio、Cassandra、HBase、Hive以及數百個其他資料來源中的資料。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014563/viewspace-2920700/,如需轉載,請註明出處,否則將追究法律責任。

相關文章