hadoop:spark-project專案的hadoop配置

花和尚也有春天發表於2018-09-18

1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上傳到虛擬機器的/usr/local目錄下。(http://archive.cloudera.com/cdh5/cdh/5/)

2、將hadoop包進行解壓縮:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz

3、對hadoop目錄進行重新命名:mv hadoop-2.5.0-cdh5.3.6 hadoop

4、配置hadoop相關環境變數

vi ~/.bashrc

export HADOOP_HOME=/usr/local/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source ~/.bashrc

5、建立/usr/local/data目錄

 

修改core-site.xml

<property>  

<name>fs.default.name</name>  

<value>hdfs://sparkproject1:9000</value>

</property>

修改hdfs-site.xml

 

//用於確定將HDFS檔案系統的元資訊儲存在什麼目錄下。若設定為多個目錄,那這些目錄下都儲存著元資訊的多個備份

<property>   

<name>dfs.name.dir</name>  

<value>/usr/local/data/namenode</value>

</property>

 

//用於確定將HDFS檔案系統的資料儲存在什麼目錄下。將這個引數設定為多個分割槽上目錄,即可將HDFS建在不同分割槽上

<property>

<name>dfs.data.dir</name>

<value>/usr/local/data/datanode</value>

</property>

 

//dfs.tmp.dir在安裝配置HADOOP的時候,一定要更改hadoop.tmp.dir ,機器意外斷電,服務重啟後,/tmp 下的目錄被清空,預設位置在/tmp/{$user}

<property>  

<name>dfs.tmp.dir</name>  // 

<value>/usr/local/data/tmp</value>

</property>

//hadoop的備份係數,每個block在hadoop叢集中有幾份,係數越高,冗餘性越好,佔用儲存也越多。備份係數在hdfs-site.xml中定義,預設值為3.

<property> 

<name>dfs.replication</name>  

<value>2</value>

</property>

 

參考:

http://blog.sina.com.cn/s/blog_48a45b95010119cy.html

https://blog.csdn.net/bluetropic/article/details/9493995

https://blog.csdn.net/linuxnc/article/details/51766406

修改mapred-site.xml

//名稱mapreduce.framework.name指的是使用yarn執行mapreduce程式

<property>  

<name>mapreduce.framework.name</name>  

<value>yarn</value>

</property>

修改yarn-site.xml

//名稱yarn.resourcemanager.hostname指的是執行ResourceManager機器所在的節點位置

<property>  

<name>yarn.resourcemanager.hostname</name>  

<value>sparkproject1</value>

</property>

//yarn.nodemanager.aux-services 指的是NodeManager上執行的附屬服務。需配置成mapreduce_shuffle,才可執行MapReduce程式

<property>  

<name>yarn.nodemanager.aux-services</name>  

<value>mapreduce_shuffle</value>

</property>

修改slaves檔案

sparkproject2

sparkproject3

 

在另外兩臺機器上搭建hadoop

1、使用如上配置在另外兩臺機器上搭建hadoop,可以使用scp命令將sparkproject1上面的hadoop安裝包和~/.bashrc配置檔案都拷貝過去。(scp -r hadoop root@sparkproject2:/usr/local)

2、要記得對.bashrc檔案進行source,以讓它生效。

3、記得在sparkproject2和sparkproject3的/usr/local目錄下建立data目錄。

啟動hdfs叢集

1、格式化namenode:在sparkproject1上執行以下命令,hdfs namenode -format

2、啟動hdfs叢集:start-dfs.sh

3、驗證啟動是否成功:

jps、50070埠

sparkproject1:namenode、secondarynamenode

sparkproject2:datanode

sparkproject3:datanode

以下是部署單機的日誌:

4、hdfs dfs -put hello.txt /hello.txt

啟動yarn叢集

1、啟動yarn叢集:start-yarn.sh

2、驗證啟動是否成功:

jps、8088埠

sparkproject1:resourcemanager、nodemanager

sparkproject2:nodemanager

sparkproject3:nodemanager

以下是部署單機的日誌:

 

然後就可以開啟了:

 

相關文章