基於 ZooKeeper 搭建 Spark 高可用叢集

單人影發表於2019-06-29

原文網址 : https://www.cnblogs.com/danrenying/p/11106791.html

一、叢集規劃

這裡搭建一個3節點的Spark叢集，其中三臺主機上均部署Worker服務。同時為了保證高可用，除了在hadoop001上部署主Master服務外，還在hadoop002和hadoop003上分別部署備用的Master服務，Master服務由Zookeeper叢集進行協調管理，如果主Master不可用，則備用Master會成為新的主Master。

二、前置條件

搭建Spark叢集前，需要保證JDK環境、Zookeeper叢集和Hadoop叢集已經搭建，相關步驟可以參閱：

三、Spark叢集搭建

3.1 下載解壓

下載所需版本的Spark，官網下載地址：http://spark.apache.org/downloads.html

下載後進行解壓：

# tar -zxvf  spark-2.2.3-bin-hadoop2.6.tgz

3.2 配置環境變數

# vim /etc/profile

新增環境變數：

export SPARK_HOME=/usr/app/spark-2.2.3-bin-hadoop2.6
export  PATH=${SPARK_HOME}/bin:$PATH

使得配置的環境變數立即生效：

# source /etc/profile

3.3 叢集配置

進入${SPARK_HOME}/conf目錄，拷貝配置樣本進行修改：

1. spark-env.sh

 cp spark-env.sh.template spark-env.sh

# 配置JDK安裝位置
JAVA_HOME=/usr/java/jdk1.8.0_201
# 配置hadoop配置檔案的位置
HADOOP_CONF_DIR=/usr/app/hadoop-2.6.0-cdh5.15.2/etc/hadoop
# 配置zookeeper地址
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop001:2181,hadoop002:2181,hadoop003:2181 -Dspark.deploy.zookeeper.dir=/spark"

2. slaves

cp slaves.template slaves

配置所有Woker節點的位置：

hadoop001
hadoop002
hadoop003

3.4 安裝包分發

將Spark的安裝包分發到其他伺服器，分發後建議在這兩臺伺服器上也配置一下Spark的環境變數。

scp -r /usr/app/spark-2.4.0-bin-hadoop2.6/   hadoop002:usr/app/
scp -r /usr/app/spark-2.4.0-bin-hadoop2.6/   hadoop003:usr/app/

四、啟動叢集

4.1 啟動ZooKeeper叢集

分別到三臺伺服器上啟動ZooKeeper服務：

 zkServer.sh start

4.2 啟動Hadoop叢集

# 啟動dfs服務
start-dfs.sh
# 啟動yarn服務
start-yarn.sh

4.3 啟動Spark叢集

進入hadoop001的${SPARK_HOME}/sbin目錄下，執行下面命令啟動叢集。執行命令後，會在hadoop001上啟動Maser服務，會在slaves配置檔案中配置的所有節點上啟動Worker服務。

start-all.sh

分別在hadoop002和hadoop003上執行下面的命令，啟動備用的Master服務：

# ${SPARK_HOME}/sbin 下執行
start-master.sh

4.4 檢視服務

檢視Spark的Web-UI頁面，埠為8080。此時可以看到hadoop001上的Master節點處於ALIVE狀態，並有3個可用的Worker節點。

而hadoop002和hadoop003上的Master節點均處於STANDBY狀態，沒有可用的Worker節點。

五、驗證叢集高可用

此時可以使用kill命令殺死hadoop001上的Master程式，此時備用Master會中會有一個再次成為主Master，我這裡是hadoop002，可以看到hadoop2上的Master經過RECOVERING後成為了新的主Master，並且獲得了全部可以用的Workers。

Hadoop002上的Master成為主Master，並獲得了全部可以用的Workers。

此時如果你再在hadoop001上使用start-master.sh啟動Master服務，那麼其會作為備用Master存在。

六、提交作業

和單機環境下的提交到Yarn上的命令完全一致，這裡以Spark內建的計算Pi的樣例程式為例，提交命令如下：

spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode client \
--executor-memory 1G \
--num-executors 10 \
/usr/app/spark-2.4.0-bin-hadoop2.6/examples/jars/spark-examples_2.11-2.4.0.jar \
100

更多大資料系列文章可以參見個人 GitHub 開源專案：大資料入門指南

基於 ZooKeeper 搭建 Hadoop 高可用叢集
2019-06-25
Hadoop
zookeeper 高可用叢集搭建
2019-01-23
基於 HAProxy + KeepAlived 搭建 RabbitMQ 高可用叢集
2020-01-06
MQ
MongoDB高可用叢集搭建
2018-09-21
MongoDB
搭建 Kubernetes 高可用叢集
2020-01-09
基於 Rainbond 部署 DolphinScheduler 高可用叢集
2022-07-14
AI
搭建zookeeper叢集（偽叢集）
2020-11-22
zookeeper 叢集搭建
2020-09-23
Zookeeper叢集搭建
2023-01-13
使用Kubeadm搭建高可用Kubernetes叢集
2022-04-14
zookeeper叢集及kafka叢集搭建
2021-06-28
Kafka
ZooKeeper 搭建 solr 叢集
2018-07-25
Solr
zookeeper叢集的搭建
2020-09-26
DevOpsSOP 基於阿里雲VPC搭建Storm+Kafka+Zookeeper叢集
2018-03-08
dev阿里ORMKafka
高可用叢集環境搭建-留檔
2019-08-22
搭建高可用kubernetes叢集(keepalived+haproxy)
2020-07-20
搭建 MySQL 高可用高效能叢集
2021-06-20
MySql
4 種高可用 RocketMQ 叢集搭建方案！
2020-11-29
MQ
基於kubeasz部署高可用k8s叢集
2023-04-23
K8S
linux下搭建ZooKeeper叢集（偽叢集）
2019-03-27
Linux
如何基於Jupyter notebook搭建Spark叢集開發環境
2021-10-12
Spark開發環境
搭建spark on yarn 叢集
2018-05-03
SparkYarn
Zookeeper 叢集環境搭建
2018-07-25
Linux下搭建ZooKeeper叢集
2021-02-27
Linux
MySQL叢集搭建(6)-雙主+keepalived高可用
2019-01-28
MySql
Keepalived+Nginx高可用叢集搭建筆記
2019-09-30
Nginx筆記
Redis操作及叢集搭建以及高可用配置
2020-09-01
Redis
工作日誌——基於k8s搭建spark叢集
2018-12-16
K8SSpark
PostgreSQL repmgr高可用叢集+keepalived高可用
2020-09-02
SQL
Spark3.0.0叢集搭建
2023-01-28
Spark
使用 Docker Compose 本地部署基於 Sentinel 的高可用 Redis 叢集
2018-03-04
DockerRedis
快速掌握RabbitMQ(五)——搭建高可用的RabbitMQ叢集
2019-05-27
MQ
Kubernetes實戰：高可用叢集的搭建和部署
2021-07-22
基於Dokcer搭建Redis叢集（主從叢集）
2020-12-10
Redis
Zookeeper簡介與叢集搭建
2018-12-01
Redis叢集與高可用
2024-07-19
Redis
PostgreSQL patroni高可用叢集
2021-03-23
SQL
手動搭建高可用的 kubernetes 叢集(v1.31)
2024-09-27