HDFS的架構

簡單文字發表於2013-02-28

　　HDFS(Hadoop Distributed File System)作為Hadoop下的一個子專案，是目前使用極為廣泛的分散式檔案系統。它的設計目的是提供一個高容錯，且能部署在廉價硬體的分散式系統；同時，它能支援高吞吐量，適合大規模資料集應用。這一目標可以看做是HDFS的架構目標。顯然，這樣的架構設計主要還是滿足系統的質量屬性，包括如何保證分散式儲存的可靠性，如何很好地支援硬體的水平擴充套件，如何支援對大資料處理的高效能以及客戶端請求的高吞吐量。所以，HDFS的架構設計頗有參考價值，在Hadoop的Apache官方網站上也給出了HDFS的架構指南。在The Architecture of Open Source Applications卷I的第8章也詳細介紹了HDFS的架構。

　　HDFS的高層設計看起來很簡單，主要包含NameNode與DataNode，它們之間的通訊，包括客戶端與HDFS NameNode伺服器的通訊則基於TCP/IP。客戶端通過一個可配置的TCP埠連線到NameNode，通過ClientProtocol協議與NameNode互動。而DataNode使用DatanodeProtocol協議與NameNode互動。一個遠端過程呼叫(RPC)模型被抽象出來封裝ClientProtocol和Datanodeprotocol協議。

　　通常，一個HDFS Cluter由一個NameNode和多個DataNode組成，且在大多數情況下，會由一臺專門的機器執行NameNode例項。下圖是HDFS的High Level　Architecture：

HDFS的架構

本圖來自IBM DeveloperWorks

　　注意，在這個架構圖中，觀察各節點之間的通訊，容易造成一個誤解是NameNode會直接與DataNode通訊。實則不然。雖然，NameNode可以看做是DataNode的管理者甚至是仲裁者，但由於DataNode的數量通常很多，且都是分散式部署在不同的機器上，若NameNode需要主動發起對各個DataNode的請求，會導致NameNode的負載過大，且對於網路的要求也極高。因此，在設計上，NameNode不會主動發起RPC，而是響應來自客戶端或Datanode的RPC請求。如果NameNode需要獲得指定DataNode的資訊，則是通過DataNode呼叫函式後的一個簡單返回值。每個DataNode都會維護一個開放的Socket，以支援客戶端程式碼或其他DataNode的讀寫請求。NameNode知道該Socket的Host與Port。

HDFS的架構

　　一個好的架構必然遵循了好的架構原則。HDFS架構有許多值得我們借鑑或參考的設計決策，其中它所遵循的架構原則，對HDFS滿足架構目標起到了決定性的作用。這些原則包括：後設資料與資料分離；主/從架構；一次寫入多次讀取；移動計算比移動資料更划算。

　　後設資料與資料分離

　　這主要體現在NameNode與DataNode之分，這種分離是HDFS最關鍵的架構決策。這兩種節點的分離，意味著關注點的分離。對於一個檔案系統而言，檔案本身的屬性（即後設資料）與檔案所持有的資料屬於兩個不同的關注點。一個簡單的例子是檔名的更改。如果不實現分離，針對一個屬性的修改，就可能需要對資料塊進行操作，這是不合理的。如果不分離這兩種節點，也不利於檔案系統的分散式部署，因為我們很難找到一個主入口點。顯然，這一原則是與後面提到的主/從架構是一脈相承的。

　　NameNode負責維護檔案系統的名字空間，任何對檔案系統名字空間或屬性的修改都將被NameNode記錄下來。NameNode會負責執行與檔案系統名稱空間的操作，包括開啟、關閉、重新命名檔案或目錄。它同時還要負責決定資料塊到DataNode的對映。從某種意義上講，NameNode是所有HDFS後設資料的仲裁者和資源庫。

　　DataNode則負責響應檔案系統客戶端發出的讀寫請求，同時還將在NameNode的指導下負責執行資料庫的建立、刪除以及複製。

　　因為所有的使用者資料都存放在DataNode中，而不會流過NameNode，就使得NameNode的負載變小，且更有利於為NameNode建立副本。

　　主/從架構

　　主從架構表現的是Component之間的關係，即由主元件控制從元件。在HDFS中，一個HDFS叢集是由一個NameNode和一定數目的DataNode組成。NameNode是一箇中心伺服器，負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。叢集中的DataNode一般是一個節點一個，負責管理它所在節點上的儲存。

　　一次寫入多次讀寫

　　一次寫入多次讀寫，即Write Once Read Many，是HDFS針對檔案訪問採取的訪問模型。HDFS中的檔案只能寫一次，且在任何時間只能有一個Writer。當檔案被建立，接著寫入資料，最後，一旦檔案被關閉，就不能再修改。這種模型可以有效地保證資料一致性，且避免了複雜的併發同步處理，很好地支援了對資料訪問的高吞吐量。

　　移動計算比移動資料更划算

　　移動計算比移動資料更划算，即moving computation is cheaper than moving data。對於資料運算而言，越靠近資料，執行運算的效能就越好，尤其是當資料量非常大的時候，更是如此。由於分散式檔案系統的資料並不一定儲存在一臺機器上，就使得運算的資料常常與執行運算的位置不相同。如果直接去遠端訪問資料，可能需要發起多次網路請求，且傳輸資料的成本也相當客觀。因此最好的方式是保證資料與運算離得最近。這就帶來兩種不同的策略。一種是移動資料，另一種是移動運算。顯然，移動資料，尤其是大資料的成本非常之高。要讓網路的消耗最低，並提高系統的吞吐量，最佳方式是將運算的執行移到離它要處理的資料更近的地方，而不是移動資料。

　　HDFS在改善吞吐量與資料訪問效能上還做出了一個好的設計決策，就是資料塊的Staging。當客戶端建立檔案時，並沒有立即將其傳送給NameNode，而是將檔案資料儲存到本地的臨時檔案中。這個操作是透明的，客戶端不會覺察，也不必關心。檔案的建立事實上是一個流資料的寫，當臨時檔案累計的資料量超過一個資料塊大小時，客戶端才會聯絡NameNode。NameNode將檔名插入檔案系統的層次結構中，並且分配一個資料塊給它。然後返回Datanode的識別符號和目標資料塊給客戶端。接著，客戶端將這塊資料從本地臨時檔案上傳到指定的Datanode上。當檔案關閉時，在臨時檔案中剩餘的沒有上傳的資料也會傳輸到指定的Datanode上。然後客戶端告訴Namenode檔案已經關閉。此時Namenode才將檔案建立操作提交到HDFS的檔案系統。這個操作的大致時序圖如下所示：

HDFS的架構

　　採用這種客戶端快取的方式，可以有效地減少網路請求，避免大資料的寫入造成網路堵塞，進而提高網路吞吐量。

HDFS架構及原理
2019-03-23
架構
Hadoop的HDFS架構入門
2022-01-25
Hadoop架構
淺析HDFS架構和設計
2019-07-25
架構
理解HDFS高可用性架構
2017-08-21
架構
HDFS架構指南（分散式系統Hadoop的檔案系統架構）
2019-01-14
架構分散式Hadoop
淺談hdfs架構與資料流
2018-11-15
架構
Hadoop核心之HDFS 架構設計
2017-02-14
Hadoop架構
HDFS1.x、2.x架構圖
2019-02-28
架構
hadoop 原始碼分析HDFS架構演進
2022-09-20
Hadoop原始碼架構
HDFS的機架感知策略
2020-06-15
HDFS 01 - HDFS是什麼？它的適用場景有哪些？它的架構是什麼？
2021-02-18
架構
Apache Hadoop文件翻譯之一（HDFS架構）
2018-09-29
ApacheHadoop架構
林意群：eBay HDFS架構的演進優化實踐
2022-05-09
架構優化
HDFS的體系結構
2020-06-08
架構師入門必看系列，分散式檔案系統HDFS解讀
2018-10-08
架構分散式
HDFS 02 - HDFS 的機制：副本機制、機架感知機制、負載均衡機制
2021-02-20
負載
大資料架構：flume-ng+Kafka+Storm+HDFS 實時系統組合
2017-11-21
大資料架構KafkaORM
REST架構風格的架構元素
2016-12-10
REST架構
架構師眼中的高併發架構
2019-03-29
架構
LNMP架構與LNAMP架構的區別
2014-04-16
LNMP架構
bs架構與cs架構的區別
2007-05-09
架構
架構設計之架構的演變
2024-06-15
架構
架構之:serverless架構
2021-07-13
架構Server
亞馬遜CTO的架構之道-儉約架構師的成本優先架構原則
2024-09-14
亞馬遜架構
HDFS 05 - HDFS 常用的 Java API 操作
2021-06-12
JavaAPI
MySQL的架構
2021-01-13
MySql架構
saltstack的架構
2024-03-18
架構
架構師眼裡的高併發架構
2018-07-27
架構
SOA架構和微服務架構的區別
2021-01-19
架構微服務
SaaS架構：流程架構分析
2024-09-20
架構
HDFS 09 - HDFS NameNode 的高可用機制
2021-08-22
【細品架構4/100】架構之架構切分
2018-06-30
架構
超融合架構與傳統IT架構的區別
2018-12-01
架構
H5架構和原生架構的區別
2022-02-12
H5架構
關於軟體架構和業務架構的思考
2018-05-23
架構
我的架構經驗系列文章-前端架構
2012-12-25
架構前端
X86架構與ARM架構的區別：
2024-03-21
架構
唯品會架構師是如何實現架構重構的
2018-11-25
架構

HDFS的架構

後設資料與資料分離

主/從架構

一次寫入多次讀寫

移動計算比移動資料更划算

相關文章

　　後設資料與資料分離

　　主/從架構

　　一次寫入多次讀寫

　　移動計算比移動資料更划算