7.2下2.7.2的叢集搭建

1.基本環境：
作業系統：
Centos 7.2.1511
三臺虛機：
192.168.163.224 master
192.168.163.225 node1
192.168.163.226 node2
軟體包
hadoop-2.7.2.tar.gz
jdk-7u79-linux-x64.tar.gz

2.配置系統環境
配置ntp時間同步
參考

修改hostname
192.168.163.224主機：
echo "master" > /etc/hostname

192.168.163.225主機：
echo "node1" > /etc/hostname

192.168.163.226主機：
echo "node2" > /etc/hostname

master上修改hosts檔案
echo "192.168.163.224 master" >>/etc/hosts
echo "192.168.163.225 node1" >>/etc/hosts
echo "192.168.163.225 node2" >>/etc/hosts

同步到node1，node2上的主機
scp /etc/hosts node1:/etc/
scp /etc/hosts node2:/etc/

各臺主機上相互ping，測試是否可以透過host連通
ping master
ping node1
ping node2

master，node1，node2上關閉防火牆
systemctl stop firewalld
systemctl disable firewalld

3.配置hadoop環境
master，node1，node2上安裝jdk
rpm -qa|grep openjdk #檢查openjdk，存在則刪除

yum remove *-openjdk-* ####刪除openjdk#####

安裝sunjdk

###yum install glibc.i686(64位系統安裝32位包，需要安裝)
tar -zxvf jdk-7u79-linux-x64.tar.gz
mv ./jdk1.7.0_79 /usr/

master，node1，node2上建立hadoop使用者

useradd hadoop #增加hadoop使用者，使用者組、home目錄、終端使用預設
passwd hadoop #修改密碼
建議在學習階段將hadoop使用者加入sudo許可權管理，簡單方法如下
1.執行visudo命令
2.在root ALL=(ALL) ALL 後加入
hadoop ALL=(ALL) ALL
master，node1，node2上進入hadoop使用者：
su - hadoop

master，node1，node2上無金鑰連線：
master上的hadoop使用者透過rsa演算法生成非對稱金鑰對：
ssh-keygen -t rsa
cd /home/hadoop/.ssh/
cp id_rsa.pub authorized_keys
chmod go-wx authorized_keys

master上的公鑰authorized_keys複製到node1，node2上的hadoop使用者
scp authorized_keys node1:/home/hadoop/.ssh/
scp authorized_keys node2:/home/hadoop/.ssh/

可透過如下命令測試
ssh node1
ssh node2
為方便node1，node2中hadoop使用者可以同時登入master，這裡我們叢集中的所有使用者共用一個金鑰
scp ~/.ssh/id_rsa node1:/home/hadoop/.ssh/
scp ~/.ssh/id_rsa node2:/home/hadoop/.ssh/

master，node1，node2上修改環境變數
vi /etc/profile
JAVA_HOME=/usr/jdk1.7.0_79
HADOOP_HOME=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
su - hadoop #重新讀取環境變數

master，node1，node2上建立相關目錄
sudo mkdir -p /usr/local/hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop
sudo mkdir -p /data/hadoop/ #建立 hadoop 資料目錄結構
sudo chown -R hadoop:hadoop /data/hadoop/
mkdir -p /data/hadoop/tmp/ #建立 tmp
mkdir -p /data/hadoop/hdfs/ #建立hdfs
mkdir -p /data/hadoop/hdfs/data #建立datanode目錄
mkdir -p /data/hadoop/hdfs/name #建立namenode目錄
mkdir -p /data/hadoop/hdfs/namesecondary

安裝hadoop
wget
tar -zxvf hadoop-2.7.2.tar.gz
mv hadoop-2.7.2 /usr/local/hadoop
chown -R hadoop:hadoop /usr/local/hadoop/

4.修改配置檔案
配置檔案相關變數詳細解釋可檢視官網：

cd $HADOOP_HOME/etc/hadoop

4.1 vi hadoop-env.sh
export HADOOP_HEAPSIZE=128 #預設為1000M，這裡我們修改為128M

4.2 vi core-site.xml #全域性配置
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>

</property>

<property>
<name>dfs.namenode.checkpoint.period</name>
<value>1800</value>

</property>

</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

<property>
<name>fs.trash.interval</name>
<value>1440</value>

</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/tmp</value>

</property>

<property>
<name>io.file.buffer.size</name>
<value>131702</value>

</property>

</configuration>

4.3 vi hdfs-site.xml #hdfs中NameNode,DataNode區域性配置
<configuration>

<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/hdfs/name</value>

<description> </description>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/hdfs/data</value>

<description> </description>
</property>

<property>
<name>dfs.namenode.http-address</name>
<value>master:50070</value>

</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node1:50090</value>

</property>

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>

</property>

<property>
<name>dfs.datanode.du.reserved</name>
<value>1073741824</value>

</property>

<property>
<name>dfs.block.size</name>
<value>134217728</value>

</property>

<property>
<name>dfs.permissions.enabled</name>
<value>false</value>

</property>

</configuration>

4.4 vi etc/hadoop/mapred-site.xml #配置MapReduce，使用yarn框架、jobhistory使用地址以及web地址
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobtracker.http.address</name>
<value>master:50030</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

4.5 vi etc/hadoop/yarn-site.xml 配置yarn-site.xml檔案
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>

4.6 vi hadoop-env.sh及vi yarn-env.sh
將其中的${JAVA_HOME}用/usr/jdk1.7.0_79代替

5.檢查單機版Hadoop

測試hdfs中的namenode與datanode：
hadoop-daemon.sh start namenode
chmod go-w /data/hadoop/hdfs/data/
hadoop-daemon.sh start datanode

測試resourcemanager：
yarn-daemon.sh start resourcemanager

???試nodemanager：
yarn-daemon.sh start nodemanager

測試historyserver：
mr-jobhistory-daemon.sh start historyserver

執行jps：
99297 Jps
99244 DataNode
98956 JobHistoryServer
98820 NodeManager
98118 NameNode
98555 ResourceManager

上述表明單機版hadoop安裝成功

6.叢集搭建
scp -r $HADOOP_HOME/ node1:/usr/local/
scp -r $HADOOP_HOME/ node2:/usr/local/

在master上進行配置
vi $HADOOP_HOME/etc/hadoop/slaves
刪除localhost
新增
node1
node2
vi $HADOOP_HOME/etc/hadoop/masters
刪除localhost
新增
node1 #目的是為了在node1節點上存放secondnamenode

7.測試叢集是否搭建成功
$HADOOP_HOME/bin/hdfs namenode -format
master上
開啟所有節點：start-all.sh(或start-dfs及start-yarn.sh代替)
各節點執行jps
master：
98956 JobHistoryServer
98820 NodeManager
118806 Jps
118176 NameNode
118540 ResourceManager

node1：
106408 SecondaryNameNode
106602 Jps
106301 DataNode
106496 NodeManager

1234 node2：
105932 Jps
105812 NodeManager
105700 DataNode

存在上述狀態，說明叢集搭建成功
關閉所有節點：stop-all.sh(或stop-dfs.sh及stop-yarn.sh代替)

同時可以訪問網頁進行檢視：

CentOS7.2下Hadoop2.7.2的叢集搭建

相關文章