關於Hadoop HDFS資料均衡。

anickname發表於2016-03-03

在hadoop叢集中，當有新節點增加或者刪除原有節點時，如果不啟用資料均衡服務（負載均衡），則會造成資料在叢集中分佈不均勻。由此而帶來的問題是無法有效的利用MR本地化計算的優勢，通俗來說就是A節點上執行的map任務所需資料不在A節點上，在B節點上。這就避免不了跨節點進行資料讀取，造成了網路頻寬的不必要消耗。為了解決這樣的問題，引入資料均衡機制，也就是使用該服務達到叢集中資料的均勻分佈的目的。但是在達到該目的的過程中，需要遵循如下原則而不至於給原有叢集帶來不必要的麻煩：

1.原有資料塊不會減少

2.可隨時終止該服務

3.資料移動不能佔用過多的資源

4.不能夠影響namenode的工作

均衡負載原理圖：

大致過程為：

1.資料均衡服務要求namenode根據叢集中datanode的資料分佈做彙總。

2.根據該彙總情況形成資料塊遷移路線圖。

3.開始資料塊遷移任務

4.遷移完成，通知namenode刪除原有資料塊。

實際應用中可能需要每天定時做一次資料均衡，在crontab中定時執行start-balancer.sh命令，當然還可以隨時終止stop-balancer.sh.

start-balancer.sh中可使用引數 -t 如start-balancer.sh -t 5%，預設10%。該引數的意思是叢集中各節點的hdfs磁碟使用率和叢集中總的hdfs磁碟使用率的差值都應該小於該引數值，就達到了資料均衡，越小表明叢集中的資料越均衡。在資料庫遷移的過程中，還可以設定其移動的速度在hdfs-site.xml中設定（需重啟hdfs服務）

<property>
<name>dfs.balance.bandwidthPerSec</name>
<value>1048576</value> =>1M/s
</property></span>

該值越大意味著資料均衡完成的速度越快，但要同時考慮到MR的任務執行不會受到影響，在實際應用中由於對檔案不斷的進行讀寫操作，可能無法達到設定的閥值。另一方儘量保持叢集中各個節點的磁碟容量一致。

參考文章：http://www.ibm.com/developerworks/cn/data/library/bd-1506-hdfsdatabalance/index.html

http://www.aboutyun.com/thread-7354-1-1.html

關於HDFS的資料可見性
2019-08-22
Hadoop系列之HDFS 資料塊
2022-01-19
Hadoop
Hadoop2.7實戰v1.0之start-balancer.sh與hdfs balancer資料均衡
2016-03-09
Hadoop
HDFS 命令：用於管理HDFS的Hadoop Shell命令大全
2021-12-29
Hadoop
【大資料】【hadoop】檢視hdfs檔案命令
2020-11-29
大資料Hadoop
Hadoop–HDFS
2018-12-20
Hadoop
ORACLE連線HADOOP(3) - OLH載入HDFS資料
2013-05-17
OracleHadoop
hadoop之上傳資料到hdfs模式
2020-10-03
Hadoop模式
Hadoop HDFS（二）
2018-05-31
Hadoop
Hadoop HDFS(一)
2018-05-24
Hadoop
hadoop命令——hdfs
2015-07-11
Hadoop
大資料時代之hadoop(四)：hadoop 分散式檔案系統（HDFS)
2014-10-20
大資料Hadoop分散式
09 大資料之Hadoop(第四部 HDFS)
2020-11-01
大資料Hadoop
大資料2-Hadoop偽分散式+ZK+HDFS
2018-04-01
大資料Hadoop分散式
Hadoop Shell命令｜HDFS Shell命令｜ HDFS 命令
2014-01-09
Hadoop
HDFS Federation(HDFS 聯邦)（Hadoop2.3）
2015-11-26
Hadoop
hadoop: hdfs API示例
2015-05-20
HadoopAPI
hadoop hdfs 命令使用
2016-06-12
Hadoop
好程式設計師大資料點睛：關於HDFS的二三事
2019-05-15
程式設計師大資料
hadoop之 HDFS-Hadoop存檔
2017-09-07
Hadoop
hadoop 存到hdfs的資料沒有同步到其他機器上
2022-12-10
Hadoop
HDFS資料平衡
2022-06-30
Hadoop面試題之HDFS
2021-12-23
Hadoop面試題
Hadoop原理之——HDFS原理
2021-09-09
Hadoop
Hadoop筆記HDFS(1)
2016-10-17
Hadoop筆記
Hadoop筆記HDFS(2)
2016-10-18
Hadoop筆記
漫談Hadoop HDFS Balancer
2015-03-12
Hadoop
hadoop hdfs命令彙總
2016-03-03
Hadoop
hadoop 2.0 hdfs HA 搭建
2016-03-02
Hadoop
Hadoop（十）HDFS API操作
2024-09-14
HadoopAPI
從 RAID 到 Hadoop Hdfs 『大資料儲存的進化史』
2018-12-18
AIHadoop大資料
Hadoop3.2.1 【 HDFS 】原始碼分析 : DataXceiver: 讀取資料塊解析 [二]
2020-11-23
Hadoop原始碼
Hadoop3.2.1 【 HDFS 】原始碼分析 : 檔案系統資料集 [一]
2020-11-10
Hadoop原始碼
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
Hadoop KMS配置(HDFS透明加密)
2020-06-06
Hadoop加密
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
【HDFS】HADOOP DISTRIBUTED FILE SYSTEM
2018-11-19
Hadoop
Hadoop HDFS 設計隨想
2018-12-07
Hadoop

關於Hadoop HDFS資料均衡。

相關文章