Spark 叢集搭建從零開始之3 Spark Standalone叢集安裝、配置與測試

土豆拍死馬鈴薯發表於2017-09-19

1、進入pc1的Spark的conf目錄,建立或者修改spark-env.sh

export JAVA_HOME=/usr/lib/jvm/java-8-oracle
export SCALA_HOME=/chenjie/scala-2.10.4
export HADOOP_HOME=/chenjie/hadoop-2.6.5
export HADOOP_CONF_DIR=/chenjie/hadoop-2.6.5/etc/hadoop
export SPARK_MASTER_IP=pc1
export SPARK_WORKER_MEMORY=2g
export SPARK_EXECUTOR_MEMORY=2g
export SPARK_DRIVER_MEMORY=2g
export SPARK_WORKER_CORES=2


2、配置spark-defaults.conf

spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://pc1:9000/historyserverforSpark
spark.yarn.historyServer.address pc1:18080
spark.history.fs.logDirectory hdfs://pc1:9000/historyserverforSpark
spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.executor.extraJavaOptions  -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"


3、使用scp -r /chenjie/spark-1.6.0-bin-hadoop2.6 root@pc2:/chenjie命令將spark資料夾拷貝給pc2  pc3同理


4、pc1上進入/chenjie/spark-1.6.0-bin-hadoop2.6/sbin目錄使用./start-all.sh命令啟動叢集


5、pc1上使用jps看到Master程式,pc2上看到Worker程式,pc3上看到Worker程式


6、使用http://192.168.153.131:8080/訪問spark看到兩個Worker結點



7、在pc1上進入【Hadoop】的/sbin目錄下使用start-dfs.sh啟動hdfs

8、http://192.168.153.131:50070訪問hadoop DataNode


9、啟動【Spark】的start-history-server.sh

我出現問題:

說明HDFS上沒有historyserverforSpark

在pc1上使用hadoop fs -mkdir /historyserverforSpark建立之

再重啟start-history-server.sh



使用18080埠訪問,能訪問則證明成功



10、以叢集方式啟動spark-shell

進入spark的bin目錄

./spark-shell


能夠計算wordcount說明叢集搭建成功。


在此過程中,我的spark-shell總是啟動不了,推測跟虛擬機器記憶體有關,於是將兩個worker改為1個,並將所有的配置檔案涉及worker記憶體分配的配置改為一致,然後成功

相關文章