1.Hadoop datanode節點超時時間設定

datanode程式死亡或者網路故障造成datanode無法與namenode通訊，namenode不會立即把該節點判定為死亡，要經過一段時間，這段時間暫稱作超時時長。HDFS預設的超時時長為10分鐘+30秒。如果定義超時時間為timeout，則超時時長的計算公式為：
timeout = 2 * heartbeat.recheck.interval + 10 *dfs.heartbeat.interval。
而預設的heartbeat.recheck.interval大小為5分鐘，dfs.heartbeat.interval預設為3秒。
需要注意的是hdfs-site.xml配置檔案中的heartbeat.recheck.interval的單位為毫秒，dfs.heartbeat.interval的單位為秒。所以，舉個例子，如果heartbeat.recheck.interval設定為5000（毫秒），dfs.heartbeat.interval設定為3（秒，預設），則總的超時時間為40秒。
hdfs-site.xml中的引數設定格式：
<property>
<name>heartbeat.recheck.interval</name>
<value>2000</value>
</property>
<property>
<name>dfs.heartbeat.interval</name>
<value>1</value>
</property>

2.HDFS冗餘資料塊的自動刪除

在日常維護hadoop叢集的過程中發現這樣一種情況：
某個節點由於網路故障或者DataNode程式死亡，被NameNode判定為死亡，HDFS馬上自動開始資料塊的容錯複製；當該節點重新新增到叢集中時，由於該節點上的資料其實並沒有損壞，所以造成了HDFS上某些block的備份數超過了設定的備份數。透過觀察發現，這些多餘的資料塊經過很長的一段時間才會被完全刪除掉，那麼這個時間取決於什麼呢？
該時間的長短跟資料塊報告的間隔時間有關。Datanode會定期將當前該結點上所有的BLOCK資訊報告給Namenode，
引數dfs.blockreport.intervalMsec就是控制這個報告間隔的引數。

hdfs-site.xml檔案中有一個引數：
<property>
<name>dfs.blockreport.intervalMsec</name>
<value>3600000</value>
<description>Determines block reporting interval in milliseconds.</description>
</property>

其中3600000為預設設定，3600000毫秒，即1個小時，也就是說，塊報告的時間間隔為1個小時，所以經過了很長
時間這些多餘的塊才被刪除掉。透過實際測試發現，當把該引數調整的稍小一點的時候（60秒），多餘的資料塊
確實很快就被刪除了。

hadoop之心跳時間與冗餘快清除

相關文章

hadoop之 心跳時間與冗餘快清除

相關文章

hadoop之心跳時間與冗餘快清除