IT十年-大資料系列講解之HDFS（二）

程式設計師OfHome發表於2018-04-09

原文網址 : https://blog.csdn.net/a318804626/article/details/79866668

大資料

HDFS優點

高容錯性

資料自動儲存多個副本

副本丟失後，自動恢復

適合批處理

移動計算而非資料

資料位置暴露給計算框架

適合大資料處理

GB、TB、甚至PB級資料

百萬規模以上的檔案數量

10K+節點規模

流式檔案訪問

一次性寫入，多次讀取

保證資料一致性

可構建在廉價機器上

通過多副本提高可靠性

提供了容錯和恢復機制

HDFS缺點，不適合以下操作方式：

低延遲資料訪問

比如毫秒級

低延遲與高吞吐率

小檔案存取

佔用NameNode大量記憶體

尋道時間超過讀取時間

併發寫入、檔案隨機修改

一個檔案只能有一個寫者

僅支援append

感謝你的觀看，如果感覺寫的不錯，你可以關注一下我的微信公眾號，也可以加入我們的大數家庭群。

微信公眾號：程式設計師OfHome

程式設計師OfHomeQQ群：610535338

HDFS不適合儲存小檔案

元資訊儲存在NameNode記憶體中

一個節點的記憶體是有限的

存取大量小檔案消耗大量的尋道時間

類比拷貝大量小檔案與拷貝同等大小的一個大檔案

NameNode儲存block數目是有限的

一個block元資訊消耗大約150 byte記憶體

儲存1億個block，大約需要20GB記憶體

如果一個檔案大小為10K，則1億個檔案大小僅為1TB（但要消耗掉NameNode 20GB記憶體）

HDFS架構

HDFS使用典型的master-slave結構

HDFS設計思想

hdfs架構

Active Namenode：主Master（只有一個）

管理HDFS的名稱空間

管理資料塊對映資訊

配置副本策略

處理客戶端讀寫請求

Standby Namenode：NameNode的熱備；

定期合併fsimage和fsedits，推送給NameNode；

當Active NameNode出現故障時，快速切換為新的 Active NameNode。

Datanode：Slave（有多個）

儲存實際的資料塊

執行資料塊讀/寫

Client：檔案切分

與NameNode互動，獲取檔案位置資訊；

與DataNode互動，讀取或者寫入資料；

管理HDFS；

訪問HDFS。

HDFS資料塊（block）

檔案被切分成固定大小的資料塊

預設資料塊大小為64MB，可配置

若檔案大小不到64MB，則單獨存成一個block

為何資料塊如此之大

資料傳輸時間超過尋道時間（高吞吐率）

一個檔案儲存方式

按大小被切分成若干個block，儲存到不同節點上

預設情況下每個block有三個副本

HDFS寫流程

HDFS讀流程

HDFS典型的物理拓撲結構

HDFSBlock副本放置策略

副本1: 同Client的節點上

副本2: 不同機架中的節點上

副本3: 與第二個副本同一機架的另一個節點上

其他副本:隨機挑選

HDFS可靠性策略

HDFS訪問方式

HDFS Shell命令：和linux命令很像

HDFS Java API ：org.apache.hadoop.fs，很簡單

HDFS REST API

HDFS Fuse：實現了fuse協議

HDFS lib hdfs：C/C++訪問介面

HDFS 其他語言程式設計API

使用thrift實現

支援C++、Python、php、C#等語言

HDFS2.0新特性（還沒有完全實現，謹慎使用）：

NameNode HA

NameNode Federation

HDFS 快照（snapshot）

HDFS 快取（in-memory cache）

HDFS ACL

異構層級儲存結構（Heterogeneous Storage hierarchy）

PS：

關注微信公眾號“程式設計師OfHome”，傳送“領取資料”可以免費領取視訊資料。

對大資料感興趣的朋友可以加入到我們的程式設計師OfHomeQQ群：610535338 群裡有都是從事或者在學習大資料的朋友，在此我也邀請你進群一起學習，群內沒有廣告，也是禁止打廣告的，大家也可以關注一下我的微信公共號“程式設計師OfHome”下方掃掃可關注。

IT十年-大資料系列講解之hadoop生態系統及版本演化
2018-04-08
大資料Hadoop
Hadoop系列之HDFS 資料塊
2022-01-19
Hadoop
大資料小白系列——HDFS(1)
2018-12-09
大資料
大資料小白系列——HDFS(2)
2018-12-15
大資料
大資料小白系列——HDFS(4)
2018-12-29
大資料
大資料小白系列——HDFS(3)
2018-12-20
大資料
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料
大資料系列2：Hdfs的讀寫操作
2021-01-26
大資料
大資料系列1：一文初識Hdfs
2021-01-25
大資料
Hadoop 學習系列（二）之 HDFS 詳細解析
2021-09-09
Hadoop
Mysql系列第二講詳解mysql資料型別（重點）
2020-09-25
MySql資料型別
大資料之Flume（二）
2020-09-24
大資料
09 大資料之Hadoop(第四部 HDFS)
2020-11-01
大資料Hadoop
大資料專案實踐（一）——之HDFS叢集配置
2018-08-21
大資料
Swoole 系列之二（Websocket 要點講解）
2020-03-10
Web
Redis原始碼系列之rename講解
2021-09-13
Redis原始碼
大資料3-Flume收集資料+落地HDFS
2018-04-02
大資料
軟體測試之資料庫系列二
2019-08-26
資料庫
玩轉大資料系列之二：資料分析與處理
2019-01-07
大資料
Android 註解系列之Annotation（二）
2018-10-15
Android
Hadoop大資料實戰系列文章之Hive
2020-11-16
Hadoop大資料Hive
Hadoop大資料實戰系列文章之Zookeeper
2020-11-10
Hadoop大資料
Hadoop大資料實戰系列文章之HBase
2020-11-11
Hadoop大資料
小白學習大資料測試之hadoop hdfs和MapReduce小實戰
2018-09-03
大資料Hadoop
Hadoop 學習系列（四）之 MapReduce 原理講解
2019-03-04
Hadoop
原始碼|HDFS之DataNode：寫資料塊（2）
2019-02-28
原始碼
大資料檔案儲存系統HDFS
2019-01-15
大資料
大資料 | 分散式檔案系統 HDFS
2021-07-09
大資料分散式
【大資料】【hadoop】檢視hdfs檔案命令
2020-11-29
大資料Hadoop
年薪500萬大資料工程師：講解大資料建模方法和經驗
2018-03-12
大資料工程師
大資料計算生態之資料計算（二）
2020-11-15
大資料
HDFS資料平衡
2022-06-30
vue原始碼分析系列之響應式資料（二）
2019-02-17
Vue原始碼
大資料教程系列之Kafka和activemq對比
2020-05-25
大資料KafkaMQ
大資料謝列3：Hdfs的HA實現
2021-01-27
大資料
Hadoop入門（二）之 HDFS 詳細解析
2018-09-11
Hadoop
扣丁學堂大資料開發之Hive基礎知識精華講解
2021-09-09
大資料Hive
用python講解資料結構之樹的遍歷
2020-12-08
Python資料結構

IT十年-大資料系列講解之HDFS（二）

HDFS優點

HDFS缺點，不適合以下操作方式：

相關文章