淺談hdfs架構與資料流

積跬步_成千裡發表於2018-11-15

原文網址 : https://flycode.co/archives/43741

概述

隨著資料量越來越大，在一個作業系統管轄的範圍記憶體不下了，那麼就分配到更多的作業系統管理的磁碟中，但是不方便管理和維護，迫切需要一種系統來管理多臺機器上的檔案，這就是分散式檔案管理系統。HDFS只是分散式檔案管理系統中的一種。

HDFS，它是一個檔案系統，用於儲存檔案，通過目錄樹來定位檔案；其次，它是分散式的，由很多伺服器聯合起來實現其功能，叢集中的伺服器有各自的角色。HDFS的設計適合一次寫入，多次讀出的場景，且不支援檔案的修改。適合用來做資料分析，並不適合用來做網盤應用。

HDFS架構

    這種架構主要由四個部分組成，分別為HDFS Client、NameNode、DataNode和Secondary NameNode。
下面我們分別介紹這四個組成部分。
複製程式碼

Client客戶端

檔案切分。檔案上傳HDFS的時候，Client將檔案切分成一個一個的Block，然後進行儲存。
與NameNode互動，獲取檔案的位置資訊。
與DataNode互動，讀取或者寫入資料。
Client提供一些命令來管理HDFS，比如啟動或者關閉HDFS。
Client可以通過一些命令來訪問HDFS。

NameNode

就是master，它是一個主管、管理者
複製程式碼

管理HDFS的名稱空間。
管理資料塊Block對映資訊
配置副本策略
處理客戶端讀寫請求。

DataNode

就是Slave，NameNode下達命令，DataNode執行實際的操作
複製程式碼

儲存實際的資料塊。
執行資料塊的讀/寫操作。

Secondary NameNode

並非NameNode的熱備，當NameNode掛掉的時候，它並不能馬上替換NameNode並提供服務
複製程式碼

輔助NameNode，分擔其工作量。
定期合併Fsimage和Edits，並推送給NameNode。
在緊急情況下，可輔助恢復NameNode。

關於HDFS檔案塊大小

HDFS中的檔案在物理上是分塊儲存（block），塊的大小可以通過配置引數( dfs.blocksize)來規定，
預設大小在hadoop2.x版本中是128M，老版本中是64M。

HDFS的塊比磁碟的塊大，其目的是為了最小化定址開銷。如果塊設定得足夠大,從磁碟傳輸資料的時間會明顯大於定位
這個塊開始位置所需的時間,因而，傳輸一個由多個塊組成的檔案的時間取決於磁碟傳輸速率。 
  
如果定址時間約為10ms，而傳輸速率為100MB/s，為了使定址時間僅佔傳輸時間的1%，
我們要將塊大小設定約為100MB。預設的塊大小128MB。塊的大小：10ms*100*100M/s = 100M
複製程式碼

HDFS寫資料流程

客戶端通過Distributed FileSystem模組向namenode請求上傳檔案，namenode檢查目標檔案是否已存在，父目錄是否存在。
namenode返回是否可以上傳。
客戶端請求第一個block上傳到哪幾個datanode伺服器上。
namenode返回3個datanode節點，分別為dn1、dn2、dn3。
客戶端通過FSDataOutputStream模組請求dn1上傳資料，dn1收到請求會繼續呼叫dn2，然後dn2呼叫dn3，將這個通訊管道建立完成。
dn1、dn2、dn3逐級應答客戶端。
客戶端開始往dn1上傳第一個block（先從磁碟讀取資料放到一個本地記憶體快取），以packet為單位，dn1收到一個packet就會傳給dn2，dn2傳給dn3；dn1每傳一個packet會放入一個應答佇列等待應答。
當一個block傳輸完成之後，客戶端再次請求namenode上傳第二個block的伺服器。（重複執行3-7步）

HDFS讀資料流程

客戶端通過Distributed FileSystem向namenode請求下載檔案，namenode通過查詢後設資料，找到檔案塊所在的datanode地址。
挑選一臺datanode（就近原則，然後隨機）伺服器，請求讀取資料。
datanode開始傳輸資料給客戶端（從磁碟裡面讀取資料輸入流，以packet為單位來做校驗）。
客戶端以packet為單位接收，先在本地快取，然後寫入目標檔案。

NameNode & Secondary NameNode工作機制

第一階段：namenode啟動
- 第一次啟動namenode格式化後，建立fsimage和edits檔案。如果不是第一次啟動，直接載入編輯日誌和映象檔案到記憶體。
- 客戶端對後設資料進行增刪改的請求。
- namenode記錄操作日誌，更新滾動日誌。
- namenode在記憶體中對資料進行增刪改查。
第二階段：Secondary NameNode工作
- Secondary NameNode詢問namenode是否需要checkpoint。直接帶回namenode是否檢查結果。
- Secondary NameNode請求執行checkpoint。
- namenode滾動正在寫的edits日誌。
- 將滾動前的編輯日誌和映象檔案拷貝到Secondary NameNode。
- Secondary NameNode載入編輯日誌和映象檔案到記憶體，併合並。
- 生成新的映象檔案fsimage.chkpoint。
- 拷貝fsimage.chkpoint到namenode。
- namenode將fsimage.chkpoint重新命名成fsimage。

關於映象檔案和編輯日誌檔案

概念

namenode被格式化之後，將在/opt/module/hadoop-2.7.2/data/tmp/dfs/name/current目錄中產生如下檔案:

edits_0000000000000000000
fsimage_0000000000000000000.md5
seen_txid
VERSION
複製程式碼

Fsimage檔案：HDFS檔案系統後設資料的一個永久性的檢查點，其中包含HDFS檔案系統的所有目錄和檔案idnode的序列化資訊。
Edits檔案：存放HDFS檔案系統的所有更新操作的路徑，檔案系統客戶端執行的所有寫操作首先會被記錄到edits檔案中。
seen_txid檔案儲存的是一個數字，就是最後一個edits_的數字
每次Namenode啟動的時候都會將fsimage檔案讀入記憶體，並從00001開始到seen_txid中記錄的數字依次執行每個dits裡面的更新操作，保證記憶體中的後設資料資訊是最新的、同步的，可以看成Namenode啟動的時候就將fsimage和edits檔案進行了合併。

DataNode工作機制

一個資料塊在datanode上以檔案形式儲存在磁碟上，包括兩個檔案，一個是資料本身，一個是後設資料包括資料塊的長度，塊資料的校驗和，以及時間戳。
DataNode啟動後向namenode註冊，通過後，週期性（1小時）的向namenode上報所有的塊資訊。
心跳是每3秒一次，心跳返回結果帶有namenode給該datanode的命令如複製塊資料到另一臺機器，或刪除某個資料塊。如果超過10分鐘沒有收到某個datanode的心跳，則認為該節點不可用。
叢集執行中可以安全加入和退出一些機器。

淺析HDFS架構和設計
2019-07-25
架構
架構之:資料流架構
2021-06-18
架構
InnoDB架構淺談
2021-01-01
架構
【淺談架構14/100】架構的緣起與目標
2018-07-03
架構
淺談 Redis 資料結構
2019-04-21
Redis資料結構
漫談“資料湖”之價值與架構
2019-07-04
架構
【資料結構】淺談主席樹
2020-07-14
資料結構
淺談JVM整體架構與調優引數
2024-04-02
JVM架構
淺談OB高可用架構下的RTO與RPO
2024-09-22
架構
淺談Android os體系架構
2018-11-04
Android架構
PHPer 淺談 Python 的資料結構
2020-03-11
PHPPython資料結構
談談如何從資料湖（Data Lake）架構轉向資料網格（Data Mesh）架構
2022-11-28
架構
淺談瀑布流
2021-06-16
淺談JavaScript的防抖與節流
2019-11-07
JavaScript
HDFS架構及原理
2019-03-23
架構
淺談網路架構及其演變
2019-03-23
架構
淺談：服務架構進化論
2023-03-09
架構
淺談資料結構最佳化DP
2024-10-30
資料結構
談談對資料架構的幾點認識
2022-08-16
架構
Scrapy架構及資料流圖簡介
2018-03-13
架構
Laikelib淺談區塊鏈技術架構
2018-08-22
AI區塊鏈架構
淺談架構-從傳統走向分散式
2018-08-08
架構分散式
Deep In React 之淺談 React Fiber 架構（一）
2019-06-26
React架構
大型直播平臺應用架構淺談
2022-02-13
應用架構
iOS架構淺談從 MVC、MVP 到 MVVM
2021-09-09
iOS架構MVCMVPMVVM
淺談《守望先鋒》中的 ECS 構架
2020-12-11
淺談 JavaScript 中的防抖與節流（一）
2019-12-19
JavaScript
乾貨：阿里大牛淺談MySQL架構體系
2019-06-27
阿里MySql架構
資料治理與資料中臺架構
2023-04-21
架構
Hadoop的HDFS架構入門
2022-01-25
Hadoop架構
淺談圖資料庫
2020-04-01
資料庫
資料管理架構：單體資料架構與分散式資料網格比較 - enyo
2021-08-08
架構分散式
大資料架構如何做到流批一體？
2019-07-03
大資料架構
談談人工智慧和機器學習的資料架構
2023-10-27
人工智慧機器學習架構
容器、微服務和網際網路架構淺談
2018-06-28
微服務架構
很全！淺談幾種常用負載均衡架構
2019-05-28
負載架構
CDGA|淺談金融機構資料治理的五個短板
2022-10-17
深入淺出Nginx實戰與架構
2022-05-29
Nginx架構