Spark3.0.1各種叢集模式搭建

七星6609發表於2020-11-21

原文網址 : https://www.cnblogs.com/qixing/p/14017875.html

對於spark前來圍觀的小夥伴應該都有所瞭解，也是現在比較流行的計算框架，基本上是有點規模的公司標配，所以如果有時間也可以補一下短板。

簡單來說Spark作為準實時大資料計算引擎，Spark的執行需要依賴資源排程和任務管理，Spark自帶了standalone模式資源排程和任務管理工具，執行在其他資源管理和任務排程平臺上，如Yarn、Mesos、Kubernates容器等。

spark的搭建和Hadoop差不多，稍微簡單點，本文針對下面幾種部署方式進行詳細描述：

Local：多用於本地測試，如在eclipse，idea中寫程式測試等。
Standalone：Standalone是Spark自帶的一個資源排程框架，它支援完全分散式。
Yarn：Hadoop生態圈裡面的一個資源排程框架，Spark也是可以基於Yarn來計算的。

瞭解一個框架最直接的方式首先要拿來玩玩，玩之前要先搭建，廢話少說，進入正題，搭建spark叢集。

一、環境準備

　　　搭建環境：CentOS7+jdk8+Hadoop2.10.1+Spark3.0.1

機器準備，由於已經搭建過Hadoop，spark叢集也是使用相同叢集（個人電腦資源有限），可以參照Hadoop搭建部落格：centos7中搭建hadoop2.10高可用叢集
需要安裝jdk1.8、Scala2.12.12、hadoop2.10.1、spark3.0.1，其中jdk1.8和Hadoop2.10也都已經安裝完成，這裡只介紹Scala和spark環境配置
機器免密登入，也在Hadoop部署時做過，可以參照Hadoop搭建部落格：centos7中搭建hadoop2.10高可用叢集
下載Scala2.12.12（https://www.scala-lang.org/download/2.12.12.html）、下載spark3.0.1(http://spark.apache.org/downloads.html)

二、配置環境變數

　　1.配置Scala環境　　

tar -zxvf scala-2.12.12.tgz -C /opt/soft/
cd /opt/soft
ln -s scala-2.12.12 scala

vim /etc/profile
新增環境變數

　#SCALA
　export SCALA_HOME=/opt/soft/scala
　export PATH=$PATH:$SCALA_HOME/bin

　source /etc/profile

測試是否正常

正常

　　2.配置spark環境變數

　　由於各個部署方式都需要該步驟，在此單獨配置，各個部署方式不再配置

tar -zxvf spark-3.0.1-bin-hadoop2.7.tgz -C /opt/soft
cd /opt/soft
ln -s spark-3.0.1-bin-hadoop2.7 spark

vim /etc/profile
新增環境變數

　#spark
　export SPARK_HOME=/opt/soft/spark
　export PATH=$PATH:$SPARK_HOME/bin

　source /etc/profile

三、搭建步驟

　　1.本地Local模式

　　上述已經解壓配置好spark環境變數，本地模式不需要配置其他配置檔案，可以直接使用，很簡單吧，先測試一下執行樣例：

cd /opt/soft/spark/bin

run-example SparkPi 10

可以計算出結果

　　測試spark-shell

spark-shell

啟動成功，說明Local模式部署成功

　　2.Standalone模式

　　1>修改Spark的配置檔案spark-env.sh

cd /opt/soft/spark/conf
cp spark-env.sh.template spark-env.sh
vim spark-env.sh

新增如下配置：

# 主節點機器名稱
export SPARK_MASTER_HOST=s141
# 預設埠號為7077
export SPARK_MASTER_PORT=7077

　　2>修改配置檔案slaves（從節點配置）

cd /opt/soft/spark/conf
cp slaves.template slaves
vim slaves

刪除原有節點，新增從節點主機如下配置：

s142
s143
s144
s145

　　3>將spark目錄傳送到其他機器，可以使用scp一個一個機器複製，這裡使用的是自己寫的批量複製指令碼xrsync.sh（hadoop批量命令指令碼xrsync.sh傳輸指令碼）

xrsync.sh spark-3.0.1-bin-hadoop2.7

　　4>在各個機器中建立spark軟連線，可以進入各個機器的/opt/soft目錄

 ln -s /opt/soft/spark-3.0.1-bin-hadoop2.7 /opt/soft/spark

　　這裡使用的是批量執行命令指令碼xcall.sh（hadoop批量命令指令碼xcall.sh及jps找不到命令解決）

xcall.sh ln -s /opt/soft/spark-3.0.1-bin-hadoop2.7 /opt/soft/spark

　　5>啟動spark叢集

cd /opt/soft/spark/sbin

可以單獨啟動master和slave
./start-master.sh
./start-slaves.sh spark://s141:7077

也可以一鍵啟動master和slave
./start-all.sh

可以看到master和worker程式已經啟動成功

　　6>檢視叢集資源頁面(webUI:http://192.168.30.141:8080/)，如果8080埠查不到可以看一下master啟動日誌，可能是8081埠

　　7>進入叢集shell驗證

cd /opt/soft/spark/bin
./spark-shell –master spark://s141:7077

也是正常的，說明Standalone模式部署成功

　　3.yarn叢集模式

　　1>修改配置檔案spark-env.sh

　　在Standalone模式下搭建yarn叢集模式很簡單，只需要在spark-env.sh配置檔案加入如下內容即可。

# 新增hadoop的配置目錄
export HADOOP_CONF_DIR=/opt/soft/hadoop/etc/hadoop

　　將spark-env.sh分發到各個機器

　　4>啟動spark叢集

　　先啟動Hadoop的yarn叢集

start-yarn.sh

　　再啟動spark叢集，和Standalone模式一樣有兩種方式

cd /opt/soft/spark/sbin

可以單獨啟動master和slave
./start-master.sh
./start-slaves.sh spark://s141:7077

也可以一鍵啟動master和slave
./start-all.sh

　　檢視master和worker程式正常　

　　5>檢視叢集資源頁面(webUI:http://192.168.30.141:8080/)，如果8080埠查不到可以看一下master啟動日誌，可能是8081埠

　　6>進入叢集shell驗證

cd /opt/soft/spark/bin
./spark-shell –master yarn

啟動也正常

Redis系列：搭建Redis叢集(叢集模式)
2020-09-23
Redis模式
rocketMq叢集master模式搭建
2022-01-26
MQAST模式
Redis三種叢集模式
2022-03-16
Redis模式
MySQL MGR 叢集搭建（單主模式）
2019-09-27
MySql模式
Windows系統搭建Redis叢集三種模式(零坑、最新版)
2021-08-28
WindowsRedis模式
4 種高可用 RocketMQ 叢集搭建方案！
2020-11-29
MQ
搭建zookeeper叢集（偽叢集）
2020-11-22
zookeeper叢集及kafka叢集搭建
2021-06-28
Kafka
Hadoop框架：叢集模式下分散式環境搭建
2020-09-27
Hadoop框架模式分散式
linux系統——Redis叢集搭建（主從+哨兵模式）
2022-01-27
LinuxRedis模式
linux下搭建ZooKeeper叢集（偽叢集）
2019-03-27
Linux
搭建ELK叢集
2018-11-15
Ambari叢集搭建
2018-11-28
kafka叢集搭建
2019-01-19
Kafka
Hadoop搭建叢集
2018-06-26
Hadoop
zookeeper 叢集搭建
2020-09-23
搭建 Redis 叢集
2020-10-04
Redis
nacos 叢集搭建
2021-08-09
mysql叢集搭建
2021-10-19
MySql
redis叢集搭建
2021-09-13
Redis
Hadoop叢集搭建
2023-02-21
Hadoop
Zookeeper叢集搭建
2023-01-13
RabbitMQ叢集搭建
2020-12-18
MQ
HBASE叢集搭建
2020-11-29
redis偽叢集配置Cluster叢集模式
2019-04-09
Redis模式
Redis三種高可用模式：主從、哨兵、叢集
2024-08-12
Redis模式
叢集，lvs負載均衡的四種工作模式
2021-05-04
負載模式
各種並查集
2024-07-21
並查集
5分鐘實現用docker搭建Redis叢集模式和哨兵模式
2021-09-29
DockerRedis模式
【環境搭建】RocketMQ叢集搭建
2022-12-24
MQ
4.4 Hadoop叢集搭建
2018-11-15
Hadoop
Redis（5.0）叢集搭建
2019-03-15
Redis
MySQL 5.7 叢集搭建
2018-11-26
MySql
搭建spark on yarn 叢集
2018-05-03
SparkYarn
ZooKeeper 搭建 solr 叢集
2018-07-25
Solr
搭建Redis原生叢集
2018-08-05
Redis
搭建MongoDB分片叢集
2024-05-03
MongoDB
MySQL MGR 叢集搭建
2019-07-31
MySql

Spark3.0.1各種叢集模式搭建

相關文章