java大資料最全課程學習筆記(2)--Hadoop完全分散式執行模式

假裝文藝範兒發表於2020-07-14

原文網址 : https://www.cnblogs.com/gitBook/p/13302183.html

Java大資料筆記Hadoop分散式模式

目前CSDN,部落格園,簡書同步發表中,更多精彩歡迎訪問我的gitee pages

Hadoop完全分散式執行模式

Hadoop完全分散式執行模式

步驟分析:

準備3臺客戶機（關閉防火牆、靜態ip、主機名稱）

vim /etc/sysconfig/network

三臺機器各自的配置分別為HOSTNAME=hadoop101;HOSTNAME=hadoop102;HOSTNAME=hadoop103

vim /etc/hosts

三臺機器都加入下面的對映關係
```
192.168.1.101 hadoop101
192.168.1.102 hadoop102
192.168.1.103 hadoop103
```
安裝JDK
配置環境變數
安裝Hadoop
配置環境變數
配置叢集
單點啟動
配置ssh
群起並測試叢集

由於在上一章節已經配置好環境並測試了hadoop偽分散式開發模式,所以在此不再贅述.

編寫叢集分發指令碼xsync

scp(secure copy) 安全拷貝(全量複製)
1. scp定義
  
  scp可以實現伺服器與伺服器之間的資料拷貝.（from server1 to server2）
2. 基本語法
  
  scp -r 原始檔使用者名稱A@主機名1：path1 目標檔案使用者名稱B@主機名2：path2
3. 其他
  1. 如果從本機執行讀取或寫入，使用者名稱B@主機名2：可以省略！
  2. 在主機1上，使用A使用者讀取path1的檔案，再使用使用者B登入到主機2，在主機2的path2路徑執行寫入！
  3. 要求：
    1. 使用者名稱A@主機名1 對path1有讀許可權
    2. 使用者名稱B@主機名2 對path2有寫許可權
rsync 遠端同步工具

rsync主要用於備份和映象。具有速度快、避免複製相同內容和支援符號連結的優點。
rsync和scp區別：用rsync做檔案的複製要比scp的速度快，rsync只對差異檔案做更新。scp是把所有檔案都複製過去。

rsync -rvlt path1 目標檔案使用者名稱B@主機名2：path2

選項功能

-r 遞迴

-v 顯示覆制過程

-l 拷貝符號連線

-t 基於檔案的修改時間進行對比，只同步修改時間不同的檔案

只能將本機的檔案同步到其他機器！

注意:path1是個目錄，目錄以/結尾，只會同步目錄中的內容，不會同步目錄本身！目錄不以/結尾，同步目錄中的內容，也會同步目錄本身！
編寫xsync叢集分發指令碼
1. 需求:迴圈複製檔案到所有節點的相同目錄下,即將當前機器的檔案，同步到叢集所有機器的相同路徑下！例如:hadoop102:/A/a , 執行指令碼後，將此檔案同步到叢集中所有機器的 /A/a
2. 需求分析:
  1. 使用者在使用xsync時，只需要傳入要同步的檔案即可
    xysnc a
    不管a是一個相對路徑還是絕對路徑，都需要將a轉換為絕對路徑！
  2. 檔案的絕對路徑：
    父路徑： dirpath=$(cd dirname /home/atguigu/hi; pwd -P)
    檔名： filename=basename hi
    pwd -P為了避免軟連結無法獲取到真實的父路徑
  3. 核心命令：
    for(())
    do
    rsync -rvlt path1
    done
  4. 說明：在/home/atguigu/bin這個目錄下存放的指令碼，atguigu使用者可以在系統任何地方直接執行。
3. 指令碼實現:
```
[atguigu@hadoop102 ~]$ mkdir bin
[atguigu@hadoop102 ~]$ cd bin/
[atguigu@hadoop102 bin]$ touch xsync
[atguigu@hadoop102 bin]$ vi xsync
```
  - 在該檔案中編寫如下程式碼
```
#!/bin/bash
#校驗引數是否合法
if(($#==0))
then
		echo 請輸入要分發的檔案!
		exit;
fi
#拼接要分發檔案的絕對路徑
dirpath=$(cd `dirname $1`; pwd -P)
filename=`basename $1`

echo 要分發的檔案的路徑是:$dirpath/$filename

#迴圈執行rsync分發檔案到叢集的每臺機器
for((i=101;i<=103;i++))
do
		echo --------------hadoop$i-------------------
		rsync -rvlt $dirpath/$filename atguigu@hadoop$i:$dirpath
done
```
  - 修改指令碼 xsync 具有執行許可權
```
[atguigu@hadoop102 bin]$ chmod 777 xsync
```
    或者
```
[atguigu@hadoop102 bin]$ chmod u+x xsync
```
  - 呼叫指令碼形式：xsync 檔名稱
4. 編寫批量執行同一命令的指令碼
```
#!/bin/bash
#在叢集的所有機器上批量執行同一條命令
if(($#==0))
then
		echo 請輸入您要操作的命令!
		exit;
fi

echo 要執行的命令是$*

#迴圈執行此命令
for((i=101;i<=103;i++))
do
		echo --------------hadoop$i-------------------
		ssh hadoop$i $*
done
```

選項	功能
-r	遞迴
-v	顯示覆制過程
-l	拷貝符號連線
-t	基於檔案的修改時間進行對比，只同步修改時間不同的檔案

叢集配置

叢集部署規劃

	hadoop101	hadoop102	hadoop103
HDFS	NameNode DataNode	DataNode	SecondaryNameNode DataNode
YARN	NodeManager	ResourceManager NodeManager	NodeManager

配置叢集

核心配置檔案

配置core-site.xml

[atguigu@hadoop102 hadoop]$ vi core-site.xml

在該檔案中編寫如下配置

<!-- 指定HDFS中NameNode的地址 -->
<property>
	<name>fs.defaultFS</name>
     <value>hdfs://hadoop101:9000</value>
</property>
<!-- 指定Hadoop執行時產生檔案的儲存目錄 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>

HDFS配置檔案

配置hadoop-env.sh

[atguigu@hadoop102 hadoop]$ vi hadoop-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144
配置hdfs-site.xml

[atguigu@hadoop102 hadoop]$ vi hdfs-site.xml

在該檔案中編寫如下配置

<property>
	  <name>dfs.replication</name>
	  <value>3</value>
</property>
<!-- 指定Hadoop輔助名稱節點主機配置 -->
<property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>hadoop103:50090</value>
</property>

YARN配置檔案

配置yarn-env.sh

[atguigu@hadoop102 hadoop]$ vi yarn-env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_144
配置yarn-site.xml

[atguigu@hadoop102 hadoop]$ vi yarn-site.xml

在該檔案中增加如下配置

<!-- reducer獲取資料的方式 -->
<property>
	  <name>yarn.nodemanager.aux-services</name>
	  <value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
	  <name>yarn.resourcemanager.hostname</name>
	  <value>hadoop101</value>
</property>

MapReduce配置檔案
- 配置mapred-env.sh
  
  [atguigu@hadoop102 hadoop]$ vi mapred-env.sh
  
  export JAVA_HOME=/opt/module/jdk1.8.0_144
- 配置mapred-site.xml
  
  [atguigu@hadoop102 hadoop]$ vi mapred-site.xml
- 在該檔案中增加如下配置
```

<property>
	  <name>mapreduce.framework.name</name>
	  <value>yarn</value>
</property>
```
在叢集上分發配置好的Hadoop配置檔案

[atguigu@hadoop102 hadoop]$ xsync /opt/module/hadoop-2.7.2/
檢視檔案分發情況

xcall cat /opt/module/hadoop-2.7.2/etc/hadoop/core-site.xml

叢集單點啟動

如果叢集是第一次啟動，需要格式化NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ hadoop namenode -format

在hadoop102上啟動NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ hadoop-daemon.sh start namenode
[atguigu@hadoop102 hadoop-2.7.2]$ jps
8118 NameNode

啟動hadoop101,hadoop102,hadoop103上的DataNode

[atguigu@hadoop102 hadoop-2.7.2]$ xcall hadoop-daemon.sh start datanode
[atguigu@hadoop101 hadoop]$ xcall jps
要執行的命令是jps
--------------hadoop101-------------------
8118 NameNode
13768 Jps
8238 DataNode
--------------hadoop102-------------------
8072 DataNode
12959 Jps
--------------hadoop103-------------------
7347 DataNode
13950 Jps

SSH無密登陸配置

免密登入原理
生成公鑰和私鑰

[atguigu@hadoop102 .ssh]$ ssh-keygen -t rsa

然後敲（三個回車），就會生成兩個檔案id_rsa（私鑰）、id_rsa.pub（公鑰）

將公鑰拷貝到要免密登入的目標機器上的/home/atguigu/.ssh目錄下的authorized_keys中

以下命令可以直接完成上述操作

[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop101
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop102
[atguigu@hadoop102 .ssh]$ ssh-copy-id hadoop103

.ssh資料夾下（~/.ssh）的檔案功能解釋

known_hosts 記錄ssh訪問過計算機的公鑰(public key)

id_rsa 生成的私鑰

id_rsa.pub 生成的公鑰

authorized_keys 存放授權過得無密登入伺服器公鑰

known_hosts	記錄ssh訪問過計算機的公鑰(public key)
id_rsa	生成的私鑰
id_rsa.pub	生成的公鑰
authorized_keys	存放授權過得無密登入伺服器公鑰

登入狀態的環境變數

Login Shell

是指登入時，需要提供使用者名稱密碼的shell，如：su – user1 , 圖形登入， ctrl+alt+F2-6進入的登入介面。
- 這種Login shell 執行指令碼的順序：
  1. /etc/profile 【全域性profile檔案;它定義了LoginUser的 PATH, USER, LOGNAME(登入使用者帳號)】
  2. /etc/profile.d/目錄下的指令碼
  3. ～/.bash_profile 【搜尋命令的路徑 ——————- 登入級別環境變數配置檔案】
  4. ～/.bashrc 【儲存使用者設定的別名和函式 ———- shell級別環境變數配置檔案】
  5. /etc/bashrc 【全域性bashrc檔案; 它主要定義一些 Function 和 Alias；更改/etc/bashrc會影響到所有使用者,由root使用者管理。】
Non-Login shell
- 登入終端後，使用ssh 登入其他機器！
- 非登入shell指的是，不需要輸入使用者名稱密碼的shell，如圖形下右鍵terminal，或ctrl+shift+T開啟的shell
- 這種Non-Login shell 執行登入指令碼的順序：
  1. ~/.bashrc
  2. /etc/bashrc
  3. /etc/profile.d/目錄下的指令碼
ssh 目標機器
登入之後，執行某個命令！
屬於Login-shell，會自動讀取 /etc/profile檔案中定義的所有的變數！
ssh 目標機器命令
屬於Non-Login-shell
不會讀取/etc/profile
如果在使用命令時，我們需要使用/etc/profile定義的一些變數，需要在目標機器的對應的使用者的家目錄/.bashrc中新增以下程式碼

source /etc/profile

如果不新增以上程式碼，在執行start-all.sh | stop-all.sh一定會報錯！

群起叢集

群起指令碼的原理是獲取叢集中所有的節點的主機名
預設讀取當前機器 HADOOP_HOME/etc/hadoop/slaves，獲取叢集中所有的節點的主機名

迴圈執行 ssh 主機名 hadoop-daemon.sh start xxx
保證當前機器到其他節點，已經配置了ssh免密登入
保證叢集中所有當前使用者的家目錄/.bashrc中，已經配置source /etc/profile

配置slaves
```
/opt/module/hadoop-2.7.2/etc/hadoop/slaves
[atguigu@hadoop102 hadoop]$ vi slaves
```
在檔案中增加如下內容:
```
hadoop101
hadoop102
hadoop103
```
注意：該檔案中新增的內容結尾不允許有空格，檔案中不允許有空行。

啟動叢集

如果叢集是第一次啟動，需要格式化NameNode

[atguigu@hadoop102 hadoop-2.7.2]$ hdfs namenode -format

啟動HDFS

[atguigu@hadoop101 hadoop]$ start-dfs.sh
[atguigu@hadoop101 hadoop]$ xcall jps
要執行的命令是jps
--------------hadoop101-------------------
8118 NameNode
13768 Jps
8238 DataNode
--------------hadoop102-------------------
8072 DataNode
12959 Jps
--------------hadoop103-------------------
7473 SecondaryNameNode
7347 DataNode
13950 Jps

啟動YARN

[atguigu@hadoop103 hadoop-2.7.2]$ start-yarn.sh
web端檢視SecondaryNameNode
1. 瀏覽器中輸入：http://hadoop103:50090/status.html
2. 檢視SecondaryNameNode資訊

叢集基本測試
1. hadoop fs -mkdir /wcinput
2. hadoop fs -put hi /wcinput/
3. hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /wcinput/ /wcoutput

叢集啟動/停止方式總結

各個服務元件逐一啟動/停止
1. 分別啟動/停止HDFS元件
  
  hadoop-daemon.sh start / stop namenode / datanode / secondarynamenode
2. 啟動/停止YARN
  
  yarn-daemon.sh start / stop resourcemanager / nodemanager
各個模組分開啟動/停止（配置ssh是前提）
1. 整體啟動/停止HDFS
  
  start-dfs.sh / stop-dfs.sh
2. 整體啟動/停止YARN
  
  start-yarn.sh / stop-yarn.sh
啟動歷史伺服器

mr-jobhistory-daemon.sh start historyserver

叢集時間同步

每臺虛擬機器作如下設定即可保證時間同步

也可設定定時同步時間的任務

crontab -e

* */1 * * * ntpdate -u ntp7.aliyun.com

其他注意事項

start-all.sh其實是分別呼叫了start-dfs.sh和start-yarn.sh,現已過時不建議使用.
stop-all.sh同理.
start-dfs.sh可以在叢集的任意一臺機器使用！可以啟動HDFS中的所有程式！
start-yarn.sh在叢集的非RM所在的機器使用，不會啟動resourcemanager!

建議:

只需要配置RM所在機器到其他機器的SSH免密登入！
都在RM所在的機器執行群起和群停指令碼！
xsync和xcall只放在RM所在的機器即可！

java大資料最全課程學習筆記(1)--Hadoop簡介和安裝及偽分散式
2020-07-12
Java大資料筆記Hadoop分散式
java大資料最全課程學習筆記(5)--MapReduce精通(一)
2020-07-19
Java大資料筆記
hadoop 偽分散式模式學習筆記
2018-10-16
Hadoop分散式模式筆記
java大資料最全課程學習筆記(3)--HDFS 簡介及操作
2020-07-16
Java大資料筆記
大資料之 Hadoop學習筆記
2018-12-14
大資料Hadoop筆記
完全分散式模式hadoop叢集安裝與配置
2018-11-02
分散式模式Hadoop
Thinking in Java---多執行緒學習筆記(2)
2020-04-04
ThinkingJava執行緒筆記
lua課程學習筆記
2024-07-09
筆記
【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記
2020-12-12
大資料分散式資料庫筆記
大資料2-Hadoop偽分散式+ZK+HDFS
2018-04-01
大資料Hadoop分散式
1.1 大資料簡介-hadoop-最全最完整的保姆級的java大資料學習資料
2022-12-02
大資料HadoopJava
Java 多執行緒學習筆記
2020-11-18
Java執行緒筆記
達內課程學習筆記
2018-08-23
筆記
機器學習課程筆記
2018-05-15
機器學習筆記
Hadoop hdfs完全分散式搭建教程
2019-01-17
Hadoop分散式
hadoop完全分散式環境搭建
2020-10-24
Hadoop分散式
Hadoop完全分散式叢集配置
2021-05-01
Hadoop分散式
2. TeraSort在Hadoop分散式叢集中的執行
2020-06-11
Hadoop分散式
雲端計算課程實驗之安裝Hadoop及配置偽分散式模式的Hadoop
2020-06-27
Hadoop分散式模式
Java多執行緒學習筆記（自用）
2020-11-24
Java執行緒筆記
大資料學習筆記之Hadoop安裝步驟詳解
2019-05-15
大資料筆記Hadoop
分散式系統學習筆記
2019-04-05
分散式筆記
大資料之Hadoop偽分散式的搭建
2019-04-23
大資料Hadoop分散式
Hadoop學習筆記——————1、Hadoop概述
2018-07-16
Hadoop筆記
林軒田機器學習基石課程學習筆記2 — Learning to Answer Yes/No
2018-07-23
機器學習筆記
好程式設計師大資料學習路線分享執行緒學習筆記二
2019-09-29
程式設計師大資料執行緒筆記
好程式設計師大資料學習路線分享多執行緒學習筆記
2019-09-27
程式設計師大資料執行緒筆記
Thinking in Java--Java多執行緒學習筆記(1)
2020-04-04
ThinkingJava執行緒筆記
hadoop學習筆記：執行wordcount對檔案字串進行統計案例
2021-10-20
Hadoop筆記字串
資料庫課程作業筆記
2019-04-24
資料庫筆記
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
Hadoop學習筆記—Yarn
2021-04-10
Hadoop筆記Yarn
GlusterFS分散式儲存學習筆記
2018-04-03
分散式筆記
【課程學習】課程2：十行程式碼高效完成深度學習POC
2020-04-18
行程深度學習
黑馬公開課——執行原理與GC學習筆記
2021-09-09
GC筆記
hadoop課堂筆記
2018-12-20
Hadoop筆記
centOS 7-Hadoop3.3.0完全分散式部署
2021-06-07
CentOSHadoop分散式
Hadoop--HDFS完全分散式(簡單版)
2020-12-02
Hadoop分散式