好程式設計師大資料點睛:關於HDFS的二三事

好程式設計師IT發表於2019-05-15

1.Hadoop自帶的一個稱為HDFS的分散式檔案系統 ,即 Hadoop Distributed Filesystem 它是以流式資料訪問模式來儲存超大檔案 執行於商用硬體叢集上

2.超大檔案 目前可以儲存 PB級別資料了

3.流式資料訪問

4. 商用硬體 ,廉價機器即可

5.低時間延遲的資料訪問 記住 HDFS是為高資料吞吐量應用最佳化的 這可能會以提高時間延遲為代價 目前對於低延遲的訪問需求 ,HBase是更好地選擇

6.大量的小檔案 由於 namenode將檔案系統的後設資料儲存在記憶體中 因此該檔案系統所能儲存的檔案總數受限於 namenode的記憶體容量 根據經驗 每個檔案目錄和資料塊的儲存資訊大約佔 150位元組 所以這類檔案不是用在 HDFS中

7.多使用者寫 任意修改檔案 HDFS中的檔案寫入只支援單個寫入者 而且些操作總是以 "只新增"方式在檔案末尾寫資料 它不支援多個寫入者的操作 也不支援在檔案的任意位置進行修改 可能以後會支援這些操作 但他們相對比較低效

關於 HDFS的三個節點:

1. Namenode HDFS的守護程式 用來管理檔案系統的名稱空間 負責記錄檔案是如何分割成資料塊以及這些資料塊分別被儲存到哪些資料節點上 它的主要功能是對記憶體及 IO進行集中管理

2.Datanode 檔案系統的工作節點 根據需要儲存和檢索資料塊 並且定期向 namenode傳送他們所儲存的塊的列表

3.Secondary Namenode 輔助後臺程式 NameNode進行通訊 以便定期儲存 HDFS後設資料的快照

4.HDFS Federation(聯邦HDFS) 透過新增 namenode實現擴充套件 其中每個 namenode管理檔案系統名稱空間中的一部分 每個 namenode維護一個名稱空間卷 包括名稱空間的源資料和該名稱空間下的檔案的所有資料塊的資料塊池

5.HDFS的高可用性(High-Availability) Hadoop的2.x發行版本在HDFS中新增了對高可用性(HA)的支援 在這一實現中 配置了一對活動 -備用(active-standby)namenode 當活動 namenode實效 備用 namenode就會接管它的任務並開始服務於來自客戶端的請求,不會有明顯的中斷


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2644492/,如需轉載,請註明出處,否則將追究法律責任。

相關文章