大資料專案實踐（一）——之HDFS叢集配置

weixin_34309435發表於2018-08-21

原文網址 : https://blog.csdn.net/weixin_34309435/article/details/88733637

一、服務節點規劃設計

	機器1	機器2	機器3	機器4	機器5
hdfs	NameNode	NameNode	DataNode	DataNode	DataNode
YARN	ResourceManager	ResourceManager	NodeManager	NodeManager	NodeManager
Zookeeper	Zookeeper	Zookeeper	Zookeeper	Zookeeper	Zookeeper
Kafka			Kafka	Kafka	Kafka
Hbase	master	master	RegionServer	RegionServer	RegionServer
flume	flume			flume	flume
hive		hive
mysql		mysql
spark	spark
hue	hue

二、Linux環境準備與配置

1.Linux系統常規配置

設定IP地址
建立使用者
```
adduser bigdata
passwd 123456
```
檔案中設定主機名
```
vi /etc/sysconfig/network
```

主機名對映

vi /etc/hosts
192.168.10.131 bigdata-pro01.mars.com bigdata-pro01

關閉防火牆

vi /etc/sysconfig/selinux
SELINUX=disabled
重啟

解除安裝本身自帶jdk

rpm -qa | grep java
rpm -e --nodeps [jdk程式名稱1 jdk程式名稱2]

root使用者下設定無密碼使用者切換

ls -l /etc/sudoers
vi /etc/sudoers
加一行
bigdata ALL=(root)NOPASSWD:ALL

驗證機器的防火牆是不是關了

sudo service iptables status
sudo service iptables start 
sudo service iptables stop 
chkconfig iptables off ##永久關閉防火牆

2.克隆虛擬機器並進行相關的配置

3.對叢集中的機器進行基本配置

虛擬機器設定固定IP地址
設定無祕鑰登入
首先在主節點上生成公鑰
ssh-keygen -t rsa
生成的祕鑰對存放在當前使用者的家目錄下的 .ssh 檔案內
cd ~/.ssh

然後將公鑰拷貝到各個子節點上
```
ssh-copy-id bigdata-pro02.mars.com
ssh-copy-id bigdata-pro03.mars.com
ssh-copy-id bigdata-pro04.mars.com
ssh-copy-id bigdata-pro05.mars.com
```
注意，這個相當於把公鑰拷貝到從節點（追加的方式）[cat id_rsa.pub >> authorized_keys]
同步機器時間，使用ntpdate
主節點設定時間，首先選擇時區，可以使用 tzselect 命令，將時區選擇好
然後使用date -s 設定
```
date -s 2018-08-18
date -s 15:03:02
```
從節點同步主節點的時間，使用crontab 定時任務
```
0-59/10 * * * * /usr/sbin/ntpdate bigdata-pro01.mars.com
```

三、HDFS 叢集配置

hadoop版本下載
cdh版本:下載地址 http://archive.cloudera.com/c...
官網版本：下載地址 http://archive.apache.org/dist/
需要配置的檔案
$HADOOP_HOME/etc/hadoop/
hadoop-env.sh
core-site.xml
hdfs-site.xml
slaves

core-site.xml配置
```

```
slaves 配置
bigdata-pro03.mars.com
bigdata-pro04.mars.com
bigdata-pro05.mars.com

四、HDFS HA 配置

大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
大資料之CDH叢集搭建
2020-11-05
大資料
vivo 萬臺規模 HDFS 叢集升級 HDFS 3.x 實踐
2022-05-16
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
Restcloud ETL實踐之Excel檔案資料採集
2022-06-13
RESTCloudExcel
Hadoop叢集從180到1500，攜程大資料實踐之路
2018-10-25
Hadoop大資料
運營商大規模資料叢集治理的實踐指南
2019-06-28
大資料專案實踐（五）——Hue安裝
2018-08-27
大資料
容器雲平臺物理叢集配置實踐
2022-08-01
大資料叢集搭建（1）ubuntu、jdk、ssh搭建配置
2019-03-21
大資料UbuntuJDK
分散式檔案系統HDFS，大資料儲存實戰（一）
2019-02-18
分散式大資料
HDFS分散式叢集搭建
2024-07-07
分散式
大資料Storm 之RCE實踐
2018-08-10
大資料ORM
（一）hadoop叢集搭建——1.4hdfs的操作
2020-12-21
Hadoop
大資料專案實戰之 --- 使用者畫像專案分析
2018-11-16
大資料
React專案實踐（一）從框架配置講起
2019-03-23
React框架
influxDB叢集模式實踐
2022-12-05
UX模式
Redis大叢集擴容效能優化實踐
2021-10-18
Redis優化
docker下，極速搭建spark叢集(含hdfs叢集)
2022-08-17
DockerSpark
大資料7.1 - hadoop叢集搭建
2018-04-09
大資料Hadoop
CDH安裝大資料叢集
2018-08-24
大資料
Hadoop3.2.1 【 HDFS 】原始碼分析 : 檔案系統資料集 [一]
2020-11-10
Hadoop原始碼
微服務實踐Aspire專案釋出到遠端k8s叢集
2024-06-01
微服務K8S
spark叢集的配置檔案
2020-12-05
Spark
[專業術語]資料庫叢集
2019-05-11
資料庫
螞蟻大規模 Sigma 叢集 Etcd 拆分實踐
2022-01-19
Redis大叢集擴容效能最佳化實踐
2021-10-18
Redis
多個HDFS叢集的fs.defaultFS配置一樣，造成應用一直連線同一個叢集的問題分析
2020-12-17
大資料檔案儲存系統HDFS
2019-01-15
大資料
大資料 | 分散式檔案系統 HDFS
2021-07-09
大資料分散式
【大資料】【hadoop】檢視hdfs檔案命令
2020-11-29
大資料Hadoop
RabbitMQ叢集運維實踐
2024-03-19
MQ運維
Docker Swarm 叢集搭建實踐
2019-09-22
DockerSwarm
mysql通過kafka實現資料實時同步（三）——es叢集配置
2020-11-13
MySqlKafka
有贊大資料離線叢集遷移實戰
2020-07-30
大資料
使用青雲搭建大資料叢集
2018-10-11
大資料
大資料平臺Hadoop叢集搭建
2020-09-28
大資料Hadoop
kubernetes實踐之一：Etcd3叢集搭建
2018-06-12

大資料專案實踐（一）——之HDFS叢集配置

一、服務節點規劃設計

二、Linux環境準備與配置

1.Linux系統常規配置

2.克隆虛擬機器並進行相關的配置

3.對叢集中的機器進行基本配置

三、HDFS 叢集配置

四、HDFS HA 配置

相關文章