HDFS/MapReduce及應用

weixin_34185364發表於2017-04-11

一. 設計目標

硬體錯誤
硬體錯誤是常態而不是異常。HDFS可能由成百上千的伺服器所構成，每個伺服器上儲存著檔案系統的部分資料。我們面對的現實是構成系統的元件數目是巨大的，而且任一元件都有可能失效，這意味著總是有一部分HDFS的元件是不工作的。因此錯誤檢測和快速、自動的恢復是HDFS最核心的架構目標。
流式資料訪問
流式資料，特點就是，像流水一樣，不是一次過來而是一點一點“流”過來。而你處理流式資料也是一點一點處理。如果是全部收到資料以後再處理，那麼延遲會很大，而且在很多場合會消耗大量記憶體。
大規模資料集
簡單的一致性模型
早期版本的HDFS不支援任何的檔案更新操作，一旦一個檔案建立、寫完資料、並關閉之後，這個檔案就再也不能被改變了。為什麼這麼設計？是為了與MapReduce完美配合，MapReduce的工作模式是接受一系列輸入檔案，經過map和reduce處理，直接產生一系列輸出檔案，而不是在原來的輸入檔案上做原位更新，因為直接輸出新檔案比原位更新一箇舊檔案高效的多

二. 系統結構

Namenode執行檔案系統的名字空間操作，比如開啟、關閉、重新命名檔案或目錄，它也負責確定資料塊到具體Datanode節點的對映。
Datanode負責處理檔案系統客戶端的讀寫請求，在Namenode的統一排程下進行資料塊的建立、刪除和複製。

三. 後設資料
後設資料一般有三種型別，都會被儲存在NameNode記憶體中

四. 後設資料檔案

fsimage：後設資料映象檔案。
fsimage是HDFS檔案系統存於硬碟中的後設資料檢查點，裡面記錄了自最後一次檢查點之前HDFS檔案系統中所有目錄和檔案的序列化資訊
edits：日誌檔案。
edits儲存了自最後一次檢查點之後所有針對HDFS檔案系統的操作，比如：增加檔案、重新命名檔案、刪除目錄等等
fstime：儲存最近一次Checkpoint的時間。
version：標誌性檔案，最後被建立，它的存在表明前三個檔案的建立成功。

在NameNode啟動時候，會先將fsimage中的檔案系統後設資料資訊載入到記憶體，然後根據eidts中的記錄將記憶體中的後設資料同步至最新狀態；所以，這兩個檔案一旦損壞或丟失，將導致整個HDFS檔案系統不可用。

五. Secondary NameNode

解決的問題

只有在NameNode重啟時，edit logs才會合併到fsimage檔案中，從而得到一個檔案系統的最新快照。但是在叢集中NameNode是很少重啟的，這也意味著當NameNode執行了很長時間後，edit logs檔案會變得很大。
NameNode的重啟會花費很長時間，因為有很多改動要合併到fsimage檔案上。
NameNode單點，機器完全掛了，資料會丟失。
為了避免edits日誌過大，SecondaryNameNode設定一個檢查點，會週期性的將fsimage和edits的合併，然後將最新的fsimage推送給NameNode，新的edit變更會寫到edit.new裡面，在進行後續切換。

六.讀資料過程