Hadoop HDFS(一)

huxd發表於2018-05-24

原文網址 : https://juejin.im/post/5b06b2a76fb9a07ac653702b

微信公眾號：碼農小胡

大吼一聲，我胡漢三又回來了，最近太忙，終於可以學習自己的東西了，開始更新中，逐步的把hadoop這個補全，工作都是眼淚啊。

Hadoop HDFS（一）

由於時間關係，經常忙著工作，很少寫一些文章了，現在重新開始，記錄一下自己在學習中所遇到的問題，這次學習Hadoop和其他的文章不一樣，減去繁瑣的教程，直接記錄自己學習的東西，為什麼不從搭建環境開始寫呢，網上一堆，太多了，所以，自己百度一下全部可以搞定，這裡直接從hdfs開始。

HDFS的概念

首先，hdfs是一個檔案系統，用來儲存檔案，通過統一的名稱空間---目錄樹來定位檔案其次，它是分散式的，由多個伺服器聯合起來，實現功能。

重要特性：

（1）HDFS中的檔案在物理上是分塊儲存的，塊的大小是可以通過配置引數來規定，預設的是128M，老版本的是64M。（2）HDFS檔案系統會給客戶端提供一個統一的抽象目錄樹，客戶端通過路徑來訪問檔案。（3）目錄結構及檔案分塊資訊的管理由namenode節點承擔 namenode是HDFS叢集主節點，負責維護整個HDFS檔案系統的目錄樹，以及每一個路徑所對應的block塊資訊（包括block的id，以及所在的datanode伺服器）（4）檔案的各個block的儲存管理由datanode節點承擔 dateanode是HDFS叢集從節點，每一個block都可以在多個datanode上儲存多啊個副本，並可以通過引數設定。（5）需要注意的是HDFS是設計成適應一詞寫入，多次讀取的場景，且不支援檔案的修改 （注意：適合做資料分析，不能做網盤，不便修改，延遲大，網路開銷大，成本高，還是使用百度網盤吧）

HDFS工作機制

1、概述

（1）HDFS兩個角色：namenode，datanode （2）Namenode負責管理檔案系統後設資料（3）Datanode負責管理使用者檔案資料塊（4）檔案按照固定大小切成若干塊後分布式儲存在若干datanode上（5）每一額檔案塊可以有多個副本，放在不用的datanode上（6）Datanode會定期向Namenode彙報自身儲存檔案block資訊，而namenode則會負責爆出檔案的副本數量（7）HDFS內部工作機制對客戶端保持透明，客戶端請求訪問HDFS都是通過向namenode申請來進行

2、HDFS寫資料流程

1、namenode通訊請求上傳檔案，namenode檢查目標檔案是否存在，父目錄是否存在。 2、namenode返回是否可以上傳。 3、client請求第一個block傳輸到哪個datanode伺服器上 4、namenode返回三個伺服器datanade。 5、client請求3臺datanode中的一臺上傳資料（其實是一個RPC呼叫，建立pipeline），A收到請求會呼叫B，B呼叫C將pipline建立完成，返回客戶端一個響應，告訴客戶端以及準備好. 6、client開始往A上傳第一額block，以pcaket為短文，A收到一個packet就會傳輸給B，B傳給C，A每傳一個packet會放入一個應答佇列等待應答 7、當一個block傳輸完成之後，client再次請求namenode上傳第二個block （注：上傳資料時，datanode選擇策略： 1、第一給副本先考慮client 端最近的（同機架）2、第二個副本考慮跨機架挑選，增加副本可靠性，3、第三個副本就在第一個副本同機架另外選一臺datanode存放如何知道哪個機器在哪個機架上，可配置機架感知）

3、HDFS讀資料流程

1、跟namenode通訊查詢後設資料，找到檔案所在大datanode伺服器。 2、挑選一臺datanode伺服器，請求建立scoket流。 3、datanode傳送資料，以packet 為單位做校驗 4、客戶端以packet為單位接受，先在本地快取，然後寫入目標檔案

Hadoop–HDFS
2018-12-20
Hadoop
Hadoop HDFS（二）
2018-05-31
Hadoop
【HDFS】HADOOP DISTRIBUTED FILE SYSTEM
2018-11-19
Hadoop
Hadoop（十）HDFS API操作
2024-09-14
HadoopAPI
Hadoop原理之——HDFS原理
2021-09-09
Hadoop
Apache Hadoop文件翻譯之一（HDFS架構）
2018-09-29
ApacheHadoop架構
Hadoop 系列（一）—— 分散式檔案系統 HDFS
2019-08-05
Hadoop分散式
（一）hadoop叢集搭建——1.4hdfs的操作
2020-12-21
Hadoop
Hadoop HDFS 設計隨想
2018-12-07
Hadoop
hadoop hdfs 常用命令
2023-09-28
Hadoop
Hadoop KMS配置(HDFS透明加密)
2020-06-06
Hadoop加密
Hadoop面試題之HDFS
2021-12-23
Hadoop面試題
Hadoop學習筆記—HDFS
2021-04-03
Hadoop筆記
hadoop-HDFS優缺點
2020-12-02
Hadoop
HDFS 命令：用於管理HDFS的Hadoop Shell命令大全
2021-12-29
Hadoop
Hadoop學習（一）——HDFS分散式檔案系統
2019-02-19
Hadoop分散式
Hadoop基礎（一）：分散式檔案系統HDFS
2020-12-11
Hadoop分散式
Hadoop hdfs完全分散式搭建教程
2019-01-17
Hadoop分散式
hadoop之上傳資料到hdfs模式
2020-10-03
Hadoop模式
Hadoop 基礎之 HDFS 入門
2019-05-13
Hadoop
Hadoop的HDFS架構入門
2022-01-25
Hadoop架構
Hadoop系列之HDFS 資料塊
2022-01-19
Hadoop
建立HDFS，匯入HADOOP jar包
2020-12-09
HadoopJAR
Hadoop學習之路（六）HDFS基礎
2019-01-23
Hadoop
Hadoop配置hdfs-site.xml詳解
2024-03-14
HadoopXML
Hadoop框架：HDFS高可用環境配置
2020-10-27
Hadoop框架
Hadoop官網翻譯之HDFS Architecture
2019-01-01
Hadoop
Hadoop 入門筆記—核心元件 HDFS
2021-11-19
Hadoop筆記元件
hadoop學習-HDFS的詳細概述
2020-12-17
Hadoop
Hadoop技術內幕：深入解析Hadoop和HDFS 1.3準備 Hadoop 原始碼
2018-09-25
Hadoop原始碼
Hadoop 基石HDFS 一文了解檔案儲存系統
2021-06-04
Hadoop
hadoop實戰4--(hdfs讀流程，hdfs寫流程，副本放置策略)
2019-02-22
Hadoop
day5 hadoop hdfs知識筆記
2018-10-22
Hadoop筆記
Hadoop入門（二）之 HDFS 詳細解析
2018-09-11
Hadoop
Hadoop框架：HDFS簡介與Shell管理命令
2020-09-29
Hadoop框架
Hadoop官網翻譯之HDFS Users Guide
2019-01-01
HadoopGUIIDE
Hadoop學習之路（十）HDFS API的使用
2018-03-21
HadoopAPI
hadoop 原始碼分析HDFS架構演進
2022-09-20
Hadoop原始碼架構