Spark2.4.5叢集安裝與本地開發
下載
官網地址:
驗證Java是否安裝
java -verison
解壓安裝
tar -zxvf jdk-14.0.1_linux-x64_bin.tar.gz
mv jdk-14.0.1 /usr/local/java
驗證Scala是否安裝
scala -verison
wget
tar xvf scala-2.13.1.tgz
mv scala-2.13.1 /usr/local/
- 設定jdk與scala的環境變數
vi /etc/profile
export JAVA_HOME=/usr/local/java
export SPARK_HOME=/usr/local/spark
export CLASSPATH=$JAVA_HOME/jre/lib/ext:$JAVA_HOME/lib/tools.jar
export PATH=$JAVA_HOME/bin:$PATH:$SPARK_HOME/bin
source /etc/profile
- 再次驗證一下是否安裝成功
scala -version
java -verison
安裝spark
- 解壓並移動到相應的目錄
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
mv spark-2.4.5-bin-hadoop2.7 /usr/local/spark
- 設定spark環境變數
vi /etc/profile
export PATH=$PATH:/usr/local/spark/bin
儲存,重新整理
source /etc/profile
- 驗證一下spark shell
spark-shell
出現以下資訊,即成功
設定Spark主結點
spark配置都提供了相應的模板配置,我們複製一份出來
cd /usr/local/spark/conf/
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
- 設定主結點Master的IP
SPARK_MASTER_HOST='192.168.56.109'
JAVA_HOME=/usr/local/java
- 如果是單機啟動
./sbin/start-master.sh
- 開啟 http://192.168.56.109:8080/
出現以下介面即成功:
- 停止
./sbin/stop-master.sh
- 設定hosts
192.168.56.109 master
192.168.56.110 slave01
192.168.56.111 slave02
免密登入
Master上執行
ssh-keygen -t rsa -P ""
生成三個檔案
將id_rsa.pub複製到slave,注意authorized_keys就是id_rsa.pub,在slave機器上名為authorized_keys,操作
scp -r id_rsa.pub root@192.168.56.110:/root/.ssh/authorized_keys
scp -r id_rsa.pub root@192.168.56.111:/root/.ssh/authorized_keys
cp id_rsa.pub authorized_keys
到slava機器上
chmod 700 .ssh
- 檢查一下是否可以免密登入到slave01,slave02
ssh slave01
ssh slave02
Master與Slave配置worker結點
cd /usr/local/spark/conf
cp slaves.template slaves
加入兩個slave,注意:slaves檔案中不要加master,不然master也成為一個slave結點
vi slaves
slave01
slave02
Master結點啟動
cd /usr/local/spark
./sbin/start-all.sh
如果出現 JAVA_HOME is not set 錯誤,則需要在slave結點的配置目錄中的spark-env.sh中加入JAVA_HOME=/usr/local/java
本地開發
將上面spark-2.4.5-bin-hadoop2.7解壓到本地,到bin目錄雙擊spark-shell.cmd,不出意外應該會報錯
Could not locate executable nullbinwinutils.exe in the Hadoop binaries.
錯誤原因是因為沒有下載Hadoop windows可執行檔案。因為我們本地沒有hadoop環境,這裡可以用winutils來模擬,並不需要我們真的去搭建hadoop
可以到這裡,如果要下載其它版本的可以自行選擇
- 設定本機環境變數
再次重啟,可以看到如下資訊即成功
-
idea裡Run/Debug配置里加入以下環境變數
-
idea裡還需要加入scala外掛,後面可以愉快的用data.show()檢視錶格了
請關注,後續有更精彩的文章分享
> 本文由部落格一文多發平臺 [OpenWrite]() 釋出!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3486/viewspace-2825463/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Zookeeper介紹與叢集安裝
- Kubernetes 叢集安裝
- cdh 叢集安裝
- StarRocks 叢集安裝
- kubernetes叢集安裝
- TiDB叢集安裝TiDB
- 【redis叢集安裝】Redis
- WeblogicServer11G叢集安裝與配置WebServer
- Elasticsearch 叢集安裝部署Elasticsearch
- ElasticSearch 6.6.0叢集安裝Elasticsearch
- Hadoop叢集安裝配置Hadoop
- 完全分散式模式hadoop叢集安裝與配置分散式模式Hadoop
- Flink(四)叢集安裝(二)
- elasticsearch叢集安裝(3臺)Elasticsearch
- ZooKeeper叢集安裝和部署
- k8s 叢集安裝K8S
- WAS中介軟體垂直叢集安裝
- WAS中介軟體水平叢集安裝
- redis cluster 4.0.9 叢集安裝搭建Redis
- Kafka叢集安裝Version2.10Kafka
- k8s叢集安裝-kubeadm安裝K8S
- elasticsearch叢集安裝+安全驗證+kibana安裝Elasticsearch
- centos7下zookeeper叢集安裝部署CentOS
- MariaDB +Centos+MMM 叢集安裝除錯CentOS除錯
- ceph叢集安裝報錯解決方法
- etcd簡介及叢集安裝部署使用
- ElasticSearch 叢集安全Elasticsearch
- Kubernetes叢集部署史上最詳細(一)Kubernetes叢集安裝
- 《生產環境下Hadoop大叢集安裝與配置+DNS+NFS》HadoopDNSNFS
- Oracle 11G RAC叢集安裝(2)——安裝gridOracle
- Oracle 11G RAC叢集安裝(3)——安裝OracleOracle
- elasticsearch-7.17.15 叢集安裝部署及kibana配置Elasticsearch
- 02.Flink的單機wordcount、叢集安裝
- Hadoop3.0完全分散式叢集安裝部署Hadoop分散式
- 大資料叢集搭建 – 2. CDH叢集安裝 – NTP,MYSQL,nginx安裝大資料MySqlNginx
- ORACLE 19C RAC叢集安裝與PRCR-1079&CRS-5017&ORA-03113Oracle
- 叢集安裝完成後,GCluster 服務不能啟動GC
- RAC之grid叢集安裝及ASM磁碟組配置ASM