在Ubuntu下搭建Spark群集

深藍發表於2016-12-20

在前一篇文章中，我們已經搭建好了Hadoop的群集，接下來，我們就是需要基於這個Hadoop群集，搭建Spark的群集。由於前面已經做了大量的工作，所以接下來搭建Spark會簡單很多。

首先開啟三個虛擬機器，現在我們需要安裝Scala，因為Spark是基於Scala開發的，所以需要安裝Scala。在Ubuntu下安裝Scala很簡單，我們只需要執行

sudo apt-get install scala

就可以安裝Scala了。

安裝完成後執行scala -version可以看到安裝的Scala的版本，我現在2.11版，安裝目錄是在/usr/share/scala-2.11 。

接下來下載Spark。到官方網站，找到最新版的Spark的下載地址，選擇Hadoop版本，

http://spark.apache.org/downloads.html

wget http://spark下載地址

當下載完畢後解壓檔案：

tar xvf spark-2.0.2-bin-hadoop2.7.tgz

接下來我們需要將解壓的資料夾移動到指定目錄，因為之前我們Hadoop安裝到/usr/local/hadoop，所以我們也可以把Spark放在/usr/local/spark下：

sudo mv spark-2.0.2-bin-hadoop2.7 /usr/local/spark

進入spark資料夾下的conf資料夾，裡面有個spark-env.sh.template檔案，是spark環境變數設定的目標，我們可以複製一個出來：

cp spark-env.sh.template spark-env.sh

然後編輯該檔案

vi spark-env.sh

在檔案的末尾我們新增上以下內容：

export SCALA_HOME=/usr/share/scala-2.11 
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 
export HADOOP_HOME=/usr/local/hadoop 
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop 
SPARK_MASTER_IP=master 
SPARK_LOCAL_DIRS=/usr/local/spark 
SPARK_DRIVER_MEMORY=1G 
export LD_LIBRARY_PATH=/usr/local/hadoop/lib/native/:$LD_LIBRARY_PATH

這裡的內容是根據我虛擬機器的環境來的，如果安裝的版本和路徑不一樣，可以根據實際情況更改。

接下來設定slaves檔案。

cp slaves.template slaves
vi slaves

將內容改為

slave01

slave02

Spark在一臺機器上就算配置完畢，接下來在另外兩臺機器上也做一模一樣的配置即可。

啟動Spark

在master上，我們先啟動Hadoop，然後執行

/usr/local/spark/sbin/start-all.sh

便可啟動Spark。

執行jps看看Java程式：

2929 Master
2982 Jps
2294 SecondaryNameNode
2071 DataNode
1929 NameNode
2459 ResourceManager
2603 NodeManager

發現比Hadoop啟動的時候多了Master程式。

切換到slave01節點上，執行JPS，看看程式：

1889 Worker
1705 NodeManager
1997 Jps
1551 DataNode

這裡比Hadoop的時候多了一個Worker程式。說明我們的Spark群集已經啟動成功。

下面訪問Spark的網站：

http://192.168.100.40:8080/

可以看到2個worker都啟動。

最後，我們執行一下Spark的示例程式：

/usr/local/spark/bin/run-example SparkPi 10 --slave01 local[2]

可以在結果中找到

Pi is roughly 3.14XXXXX

說明我們執行成功了。

CentOS 7.4 下搭建 Elasticsearch 6.3 搜尋群集
2018-07-10
CentOSElasticsearch
使用haproxy搭建web群集
2020-11-28
Web
Ubuntu下Java環境的搭建
2020-04-05
UbuntuJava
ubuntu下搭建ftp服務端
2018-03-03
UbuntuFTP服務端
ubuntu下搭建nfs伺服器
2018-03-03
UbuntuNFS伺服器
ubuntu下搭建samba伺服器
2018-03-03
UbuntuSamba伺服器
使用Haproxy與nginx配合搭建web群集
2020-11-10
NginxWeb
Haproxy搭建 Web 群集實現負載均衡
2023-09-18
Web負載
在ubuntu下按照nvidia驅動
2024-05-13
Ubuntu
Ubuntu 18.04.1下的Java搭建與Hello老王
2018-08-19
UbuntuJava
ubuntu 下gerrit 伺服器環境搭建
2018-05-14
Ubuntu伺服器
Ubuntu下Python & Django開發環境搭建
2018-06-21
UbuntuPythonDjango開發環境
Ubuntu下的FTP Servers搭建與連線
2023-02-20
UbuntuFTPServer
Spark學習進度-Spark環境搭建&Spark shell
2021-01-04
Spark
RabbitMQ系列（一）在Ubuntu上的環境搭建
2018-06-14
MQUbuntu
在 Ubuntu 上搭建 nginx+PHP+Laravel 環境
2019-10-31
UbuntuNginxPHPLaravel
ＶＬＣ在ｕｂｕｎｔｕ環境下編譯
2018-08-07
編譯
在 Ubuntu18.04 下安裝 Redis
2019-08-23
UbuntuRedis
在Ubuntu環境下安裝eclipse
2019-02-11
UbuntuEclipse
在 Ubuntu 14.04 下安裝 mysql 5.7.10
2018-04-03
UbuntuMySql
docker下，極速搭建spark叢集(含hdfs叢集)
2022-08-17
DockerSpark
RabbitMQ系列（一）RabbitMQ在Ubuntu上的環境搭建
2018-06-14
MQUbuntu
搭建spark on yarn 叢集
2018-05-03
SparkYarn
Kaldi在ubuntu 18.04下編譯小結
2018-10-20
Ubuntu編譯
Django在Ubuntu下運算元據庫
2020-11-12
DjangoUbuntu
ubuntu環境下搭建以太坊開發環境
2018-12-27
Ubuntu開發環境
Inmp-(2)在ubuntu18.04中搭建lnmp環境
2019-02-16
UbuntuLNMP
伺服器群集—Haproxy+keepalived群集
2020-12-14
伺服器
Spark3.0.0叢集搭建
2023-01-28
Spark
Ubuntu下搭建JAVA開發環境及解除安裝
2019-02-10
UbuntuJava開發環境
【Docker快速入門】在Ubuntu下安裝Docker
2018-07-05
DockerUbuntu
在 Ubuntu18.04 下安裝 LNMP 環境
2019-08-23
UbuntuLNMP
在 win11 下搭建並使用 ubuntu 子系統（同時測試 win10)——（附帶深度學習環境搭建）
2022-11-30
UbuntuWin10深度學習
Haskell 在 macOS 下的環境搭建
2018-06-23
HaskellMac
requests在Ubuntu 16.04下的SSLV3問題
2023-11-22
Ubuntu
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
【MQTT】在Windows下搭建MQTT伺服器
2018-11-07
MQQTWindows伺服器
MQTT在Windows下搭建MQTT伺服器
2019-03-04
MQQTWindows伺服器
在Mac下怎麼搭建MySQL環境？
2021-10-29
MacMySql

在Ubuntu下搭建Spark群集

相關文章