一個4節點Hadoop叢集的配置示例

Morven.Huang發表於2014-12-30

Hadoop

環境：

作業系統：CentOS 6.5 64bit

Hadoop：Version 1.2.1

Servers：hadoopnamenode，hadoop2ndnamenode，hadoopdatanode1，hadoopdatanode2

注：為方便起見，在這4臺server上，我都直接使用root賬戶進行操作

下載及環境變數設定：

在所有4臺server上：

從Apache網站下載hadoop-1.2.1-bin.tar.gz，解壓後放置在某個目錄下，我放在了/usr/local下，為方便起見，我把目錄hadoop-1.2.1改名為hadoop。

修改.bashrc，新增下面的環境變數：

export HADOOP_PREFIX=/usr/local/hadoop

export PATH=$PATH:$HADOOP_PREFIX/bin

配置hosts檔案：

在/etc/hosts中新增：

153.65.170.11 hadoopnamenode

153.65.170.45 hadoop2ndnamenode

153.65.171.174 hadoopdatanode1

153.65.171.24 hadoopdatanode2

配置ssh：

在hadoopnamenode上執行：

ssh-keygen//生成公鑰、私鑰

ssh-copy-id   –i   ~/.ssh/id_rsa.pub   root@hadoop2ndnamenode//將hadoopnamenode的公鑰copy到其它三臺server上

ssh-copy-id   –i   ~/.ssh/id_rsa.pub   root@hadoopdatanode1

ssh-copy-id   –i   ~/.ssh/id_rsa.pub   root@hadoopdatanode2

這麼做的目的是可以不需要密碼從hadoopnamenode上ssh到其它三臺server上。經過ssh-copy-id後，這個公鑰實際上會被新增到其它三臺server的~/.ssh/authorized_keys檔案中。

例如要從hadoopnamenode登入hadoop2ndnamenode，其流程大概是：hadoop2ndnamenode向hadoopnamenode傳送一段隨機字串，hadoopnamenode用自己的私鑰加密後，再發回來。hadoop2ndnamenode用事先儲存的hadoopnamenode公鑰進行解密，如果成功，就證明使用者是可信的，直接允許登入shell，不再要求密碼。

配置Hadoop：

一般地，我們將使用下面的命令啟動hdfs（即name node, secondary name node, data node）及MapReduce：

/usr/local/hadoop/bin/start-dfs.sh

/usr/local/hadoop/bin/start-mapred.sh

start-dfs.sh的流程大概是這樣：

執行該命令的機器自動成為name node(以及job tracker)，
啟動/usr/local/hadoop/conf /slaves中列出的所有機器並作為data node(以及task tracker)，
啟動/usr/local/hadoop/conf /masters中列出的所有機器並作為secondary name node。

start-mapred.sh的流程類似：

執行該命令的機器自動成為job tracker，
啟動/usr/local/hadoop/conf /slaves中列出的所有機器並作為task tracker

注：conf/masters檔案往往給人帶來困惑，直觀上讓人覺得它是為配置name node所用，但是因為(1)的原因，name node是不需要特別配置到conf/masters中，需要配置的只有secondary name node。

根據以上描述，我們可以開始修改hadoopnamenode上的masters檔案，刪除原內容，新增一行：

hadoop2ndnamenode

修改hadoopnamenode上的slaves檔案，刪除原內容，新增兩行：

hadoopdatanode1

hadoopdatanode2

除此之外，需要在hadoopdatanode1與hadoopdatanode2上作出配置，使得data node知道name node，task tracker知道job tracker。所以分別修改hadoopdatanode1與hadoopdatanode2上的conf/core-site.xml：

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://hadoopnamenode:10001</value>

</property>

</configuration>

及conf/mapred-site.xml：

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>hadoopnamenode:10002</value>

</property>

</configuration>

格式化name node：

在hadoopnamenode上執行：

hadoop namenode -format

啟動Hadoop：

首先，在hadoopnamenode上執行下面命令來啟動所有name node, secondary name node, data node：

start-dfs.sh

可以使用jps命令在4臺server上檢視當前執行的java程式，正常情況你會看到：

hadoopnamenode上有程式：NameNode

hadoop2ndnamenode上有程式：SecondaryNameNode

hadoopdatanode1/hadoopdatanode2上有程式：DataNode

其次，在hadoopnamenode上執行下面命令來啟動所有job tracker, task tracker：

start-mapred.sh

繼續使用jps命令在4臺server上檢視當前執行的java程式，正常情況你會看到：

hadoopnamenode上有程式：NameNode, JobTracker

hadoop2ndnamenode上有程式：SecondaryNameNode

hadoopdatanode1/hadoopdatanode2上有程式：DataNode, TaskTracker

關閉Hadoop：

在hadoopnamenode上：

stop-mapred.sh

stop-dfs.sh

其它：

Name node管理介面：http://hadoopnamenode:50070/

Job tracker 管理介面：http://hadoopnamenode:50030/

搭建5個節點的hadoop叢集環境（CDH5）
2017-09-21
HadoopH5
安裝 Hadoop：設定單節點 Hadoop 叢集
2021-12-29
Hadoop
hadoop叢集搭建——單節點（偽分散式）
2022-06-24
Hadoop分散式
hadoop叢集多節點安裝詳解
2015-09-01
Hadoop
RAC第一個節點被剔除叢集故障分析
2016-07-13
Hadoop 叢集角色和節點數規劃建議
2020-10-24
Hadoop
Jedis操作單節點redis，叢集及redisTemplate操作redis叢集（一）
2018-06-13
Redis
Hadoop完全分散式叢集配置
2021-05-01
Hadoop分散式
hadoop叢集配置和啟動
2024-05-11
Hadoop
Hadoop叢集搭建（一）
2020-10-02
Hadoop
ganglia 監控hadoop 叢集的配置檔案問題的一個說明.
2017-05-12
Hadoop
consul 多節點/單節點叢集搭建
2021-07-12
RAC修改叢集兩個節點public ip地址
2014-01-14
4.2 叢集節點初步搭建
2018-11-15
新增和刪除hadoop叢集中的節點
2013-11-11
Hadoop
Hadoop叢集是配置時間同步！
2020-10-27
Hadoop
MongoDB叢集搭建(包括隱藏節點，仲裁節點)
2021-04-13
MongoDB
ClusterShell：一個在叢集節點上並行執行命令的好工具
2019-07-26
並行
如何搭建一個易於維護的 Hadoop 叢集？
2016-08-25
Hadoop
hadoop叢集內lzo的安裝與配置
2017-11-15
Hadoop
Hadoop叢集機器的hosts檔案配置
2014-03-19
Hadoop
Hadoop叢集機器的SSH認證配置
2014-03-19
Hadoop
如何配置一個 Docker Swarm 原生叢集
2015-07-30
DockerSwarm
HAC叢集更改IP（單節點更改、全部節點更改）
2022-05-27
400+節點的 Elasticsearch 叢集運維
2019-03-26
Elasticsearch運維
400+ 節點的 Elasticsearch 叢集運維
2019-04-25
Elasticsearch運維
mongodb叢集節點故障的切換方法
2019-06-20
MongoDB
搭建hadoop2/CDH4叢集
2014-12-01
Hadoop
Oracle叢集軟體管理-新增和刪除叢集節點
2020-03-19
Oracle
linux搭建kafka叢集，多master節點叢集說明
2022-04-06
LinuxKafkaAST
hadoop-叢集管理（1）——配置檔案
2014-08-19
Hadoop
極簡的配置單節點Kubernetes（k8s）叢集
2018-12-15
K8S
cephadm訪問ceph叢集的方式及管理員節點配置案例
2024-08-22
主機os重灌的節點加回RAC叢集步驟示例（11gR2 RAC）
2017-07-10
基於pacemaker 的高可用叢集架構----2 一個示例
2012-08-16
架構
Spark在Hadoop叢集上的配置(spark-1.1.0-bin-hadoop2.4)
2014-11-11
SparkHadoop
Redis服務之叢集節點管理
2020-08-08
Redis
Redis Manager 叢集管理與節點管理
2018-12-15
Redis

一個4節點Hadoop叢集的配置示例

相關文章