好程式設計師大資料學習路線分享HDFS讀流程
1. 客戶端或者使用者透過呼叫 FileSystem 物件的 Open() 方法開啟需要讀取的檔案,這時就是 HDSF 分散式系統所獲取的一個物件
2.FileSystem 透過遠端協議呼叫 NameNode 確定檔案的前幾個 Block 的位置,對於每一個 block,NameNode 返回一個含有 Block 的後設資料資訊,接下來 DataNode 按照上面定義的距離 (offSet 偏移量 ) 進行排序 , 如果 Client 本身即是一個 DataNode, 那麼就會優先從本地 DataNode 節點讀取資料 . HDFS 完成上面的工作之後返回一個 FSDatalnputStream 給客戶端 , 讓其從 FSDatalnputStream 中讀取。 FSDatalnputStream 包裝了一個類 DFSInputStream, 用來管理 DataNode 和 NameNode 的 I/O 操作。
3.NameNode 向客戶端返回一個包含了資料資訊的地址 , 客戶端根據地址建立一個 FSDDatalnputStream 的物件開始進行資料的讀取
4.FSDatalnputStream 根據開始存的前幾個 Block 的 DataNode 地址,連線到最近 DataNode 上對資料開始從頭讀取,客戶端會反覆呼叫 read() 方法,以流的形式讀取 DataNode 這中的資料
5. 當讀取到 Block 的結尾的時候, FSDatalnputStream 會關閉當前 DataNode 的連線然後查詢能否讀取下一個 Block 的 DataNode 位置資訊 , 此時給客戶端產生的感覺就是資料是連續讀取的,也就說在讀取的時候開始查詢下一個塊所在的地址。讀取完成時需要使用 close() 方法關閉 FSDatalnputStream
HDFS 寫流程:
1.Client 透過呼叫 FileSystem 類的 Create() 方法請求建立檔案
2.FileSystem 透過對 NameNode 發出遠端請求 , 在 NameNode 裡面建立一個新的檔案 , 但是此時並不關聯任何塊 ,NameNode 進行很多檢查來保證不存在要建立檔案已經在系統中 , 同時檢查是否有相當許可權來建立檔案,如果這些都檢查完了 , 那麼 NamdNode 會記錄下這個新檔案的資訊。 FileSystem 返回一個 FSDatalnputStream 給客戶端用來寫入資料, FSDatalnputStream 將包裝一個 DFsOutputStream 用於對 DataNode 和 NameNode 的通訊 , 一旦檔案建立失敗 , 會給客戶端返回一個 l0Exception 表示檔案建立失敗並停止任務
3. 客戶端開始寫資料 FSDatalnputStream 把要寫的資料分成包的形式將其寫入到中間佇列中,其中的資料有 DataStramer 來讀取 ,DataStreamer 的職責就是讓 NameNode 分配一個新的塊透過查詢對應 DataNode 來存資料 , 來儲存的資料會被備份出一個副本 , 儲存到其他節點完成資料寫入即可
4.FSDatalnputStream 維護了一個內部關於 packets 的佇列 , 裡面存放著等待被 DataNode 確認的資訊 , 一旦資料資訊寫入 DataNode 成功後 , 就會從佇列中移除
5. 當資料完成寫入之後客戶會呼叫 close 方法 , 透過 NameNode 完成寫入之前透過一個方法 flush 將殘留資料一起寫進去。和 NameNode 確定寫入的位置資訊,並返回成功狀態。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913892/viewspace-2655291/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 好程式設計師大資料學習路線分享HDFS學習總結程式設計師大資料
- 好程式設計師大資料學習路線分享hdfs學習乾貨程式設計師大資料
- 好程式設計師大資料培訓分享HDFS讀流程程式設計師大資料
- 好程式設計師大資料學習路線分享MAPREDUCE程式設計師大資料
- 好程式設計師大資料學習路線分享SparkSQl程式設計師大資料SparkSQL
- 好程式設計師大資料學習路線分享MapReduce全流程總結程式設計師大資料
- 好程式設計師大資料學習路線分享分散式檔案系統HDFS程式設計師大資料分散式
- 好程式設計師大資料學習路線分享Hbase指令學習程式設計師大資料
- 好程式設計師大資料學習路線分享大資料之字串程式設計師大資料字串
- 好程式設計師大資料學習路線Hadoop學習乾貨分享程式設計師大資料Hadoop
- 好程式設計師大資料學習路線分享Actor學習筆記程式設計師大資料筆記
- 好程式設計師大資料學習路線分享Map學習筆記程式設計師大資料筆記
- 好程式設計師大資料學習路線分享AWK詳解程式設計師大資料
- 好程式設計師大資料學習路線分享UDF函式程式設計師大資料函式
- 好程式設計師大資料學習路線分享spark之Scala程式設計師大資料Spark
- 好程式設計師大資料學習路線分享Lambda表示式程式設計師大資料
- 好程式設計師大資料學習路線分享大資料之執行緒程式設計師大資料執行緒
- 好程式設計師大資料學習路線分享高階函式程式設計師大資料函式
- 好程式設計師大資料學習路線分享Scala系列之物件程式設計師大資料物件
- 好程式設計師大資料學習路線分享Hadoop機架感知程式設計師大資料Hadoop
- 好程式設計師大資料學習路線分享TCP和UDP學習筆記程式設計師大資料TCPUDP筆記
- 好程式設計師大資料學習路線分享大資料之基礎語法程式設計師大資料
- 好程式設計師大資料學習路線分享MapReduce全過程解析程式設計師大資料
- 好程式設計師大資料學習路線分享hive的執行方式程式設計師大資料Hive
- 好程式設計師大資料學習路線分享什麼是Hash表程式設計師大資料
- 好程式設計師大資料學習路線分享Scala系列之抽象類程式設計師大資料抽象
- 好程式設計師大資料學習路線分享Scala系列之陣列程式設計師大資料陣列
- 好程式設計師大資料學習路線分享Scala分支和迴圈程式設計師大資料
- 好程式設計師大資料學習路線分享Scala系列之泛型程式設計師大資料泛型
- 好程式設計師大資料學習路線之大資料自學路線二程式設計師大資料
- 好程式設計師大資料學習路線之大資料自學路線一程式設計師大資料
- 好程式設計師大資料學習路線分享執行緒學習筆記二程式設計師大資料執行緒筆記
- 好程式設計師大資料學習路線分享多執行緒學習筆記程式設計師大資料執行緒筆記
- 好程式設計師大資料學習路線Hbase總結程式設計師大資料
- 好程式設計師大資料學習路線之mapreduce概述程式設計師大資料
- 好程式設計師大資料學習路線分享彈性分散式資料集RDD程式設計師大資料分散式
- 好程式設計師大資料學習路線分享函式+map對映+元祖程式設計師大資料函式
- 好程式設計師大資料學習路線分享hive分割槽和分桶程式設計師大資料Hive