Apache Spark技術實戰之5 -- SparkR的安裝及使用

徽滬一郎發表於2014-09-28

ApacheSpark

歡迎轉載，轉載請註明出處，徽滬一郎。

概要

根據論壇上的資訊，在Sparkrelease計劃中，在Spark 1.3中有將SparkR納入到發行版的可能。本文就提前展示一下如何安裝及使用SparkR.

SparkR的出現解決了R語言中無法級聯擴充套件的難題，同時也極大的豐富了Spark在機器學習方面能夠使用的Lib庫。SparkR和Spark MLLIB將共同構建出Spark在機器學習方面的優勢地位。

使用SparkR能讓使用者同時使用Spark RDD提供的豐富Api，也可以呼叫R語言中豐富的Lib庫。

安裝SparkR

先決條件

已經安裝好openjdk 7
安裝好了R

安裝步驟：

步驟1：執行R Shell

bash# R

步驟2：在R shell中安裝rJava

install.packages("rJava")

步驟3: 在R shell中安裝devtools

install.packages("devtools")

步驟4: 安裝好rJava及devtools，接下來安裝SparkR

library(devtools)
install_github("amplab-extras/SparkR-pkg", subdir="pkg")

使用SparkR來執行wordcount

安裝完SparkR之後，可以用wordcount來檢驗安裝正確與否。

步驟1：在R shell中載入SparkR

library(SparkR)

步驟2：初始化SparkContext及執行wordcount

sc <- sparkR.init(master="local", "RwordCount")
lines <- textFile(sc, "README.md")
words <- flatMap(lines,
	function(line) {
		strsplit(line, " ")[[1]]
	})
wordCount <- lapply(words, function(word) { list(word, 1L) })

counts <- reduceByKey(wordCount, "+", 2L)
output <- collect(counts)
for (wordcount in output) {
	cat(wordcount[[1]], ": ", wordcount[[2]], "\n")
}

如果想將SparkR執行於叢集環境中，只需要將master=local，換成spark叢集的監聽地址即可

小結

時間匆忙，還有兩件事情沒有來得及細細分析。

SparkR的程式碼實現
如果很好的將R中支援的資料探勘演算法與Spark並行化處理能力很好的結合

參考資料

https://github.com/amplab-extras/SparkR-pkg

Apache Spark技術實戰之3 -- Spark Cassandra Connector的安裝和使用
2014-09-02
ApacheSpark
Apache Spark技術實戰之6 -- spark-submit常見問題及其解決
2014-10-26
ApacheSparkMIT
Apache Spark技術實戰之4 -- 利用Spark將json檔案匯入Cassandra
2014-09-06
ApacheSparkJSON
Apache Spark技術實戰之7 -- CassandraRDD高併發資料讀取實現剖析
2014-11-17
ApacheSpark
SPARK 安裝之scala 安裝
2015-09-30
Spark
【技術乾貨】程式碼示例：使用 Apache Spark 連線 TDengine
2022-05-30
ApacheSpark
技術分享| 雲伺服器的使用-nginx的安裝及使用
2022-06-15
伺服器Nginx
Apache Spark SQL的高階Join連線技術
2019-01-08
ApacheSparkSQL
《Elasticsearch技術解析與實戰》Chapter 1.2 Elasticsearch安裝
2019-04-14
ElasticsearchAPT
Linux環境Spark安裝配置及使用
2019-05-07
LinuxSpark
安裝apache及介紹
2020-11-10
Apache
spark之 spark 2.2.0 Standalone安裝、wordCount演示
2018-02-25
Spark
Kafka應用實戰——Kafka安裝及簡單使用
2018-08-06
Kafka
【備忘】《圖解Spark 核心技術與案例實戰》PDF
2018-09-01
圖解Spark
教程：Apache Spark SQL入門及實踐指南！
2018-09-12
ApacheSparkSQL
PHP安裝及與apache整合
2018-07-13
PHPApache
Apache安裝部署及工作模式
2020-11-18
Apache模式
Apache中URLRewrite技術的實現
2007-06-14
Apache
Spark綜合使用及使用者行為案例訪問session統計分析實戰-Spark商業應用實戰
2018-12-24
SparkSession
安裝 Apache2+PHP5+MySQL
2015-03-24
ApachePHPMySql
Spark流教程：使用 Apache Spark 的Twitter情緒分析
2021-12-29
SparkApache
Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰
2018-12-17
PythonSpark大資料
技術集錦 | 大資料雲原生技術實戰及最佳實踐系列
2022-02-11
大資料
Spark綜合使用及使用者行為案例區域內熱門商品統計分析實戰-Spark商業應用實戰
2018-12-25
Spark
Debian安裝Apache2+MySQL5+PHP5
2021-09-09
ApacheMySqlPHP
Apache安裝及jboss部署說明文件
2007-11-07
Apache
kubernetes實戰篇之helm安裝
2019-07-04
kafka的安裝及使用
2018-04-26
Kafka
Nmon的安裝及使用
2017-12-29
Git的安裝及使用
2024-06-22
Git
最佳實踐｜Apache Pulsar 在拉卡拉的技術實踐
2021-11-15
Apache
Apache安裝
2015-10-16
Apache
apache安裝和調整效能安裝實踐(轉)
2007-08-09
Apache
ELK 之 Kibana 安裝及使用說明
2018-12-29
Oracle GoldenGate系統之----安裝及使用
2015-11-12
OracleGo
Apache伺服器安裝及配置（win版）
2016-08-03
Apache伺服器
Apache+PHP5+MySQL4(5)+PHPMyAdmin 的簡易安裝配置
2006-05-16
ApachePHPMySql
搞懂分散式技術5：Zookeeper的配置與叢集管理實戰
2019-11-19
分散式

Apache Spark技術實戰之5 -- SparkR的安裝及使用

概要

安裝SparkR

使用SparkR來執行wordcount

小結

參考資料

相關文章