hadoop之 HDFS-Hadoop存檔

張衝andy發表於2017-09-07

每個檔案按塊方式儲存, 每個塊的後設資料儲存在namenode的記憶體中
Hadoop存檔檔案或HAR檔案是一個更高效的檔案存檔工具,它將檔案存入HDFS塊,在減少記憶體使用的同時,允許對檔案進行透明地訪問
Hadoop存檔檔案可以用作MapReduce的輸入

使用Hadoop存檔工具

Hadoop存檔是透過archive工具根據一組檔案建立而來的,該存檔工具執行一個MapReduce作業來並行處理所有的輸入檔案
使用archive

hadoop archive -archiveName files.har /my/files /my

第一個選項是存檔檔案的名稱,這裡是第一個引數 file.har
第二個引數是需要存檔的檔案
第三個引數是HAR檔案的輸出目錄
列出HAR檔案中的檔案

hadoop fs -ls /my/files.har

遞迴列出HAR檔案中的檔案

hadoop fs -lsr /my/files.har
其他檔案系統中引用HAR檔案,則需要使用不同的URI路徑格式,示例如下

 hadoop fs -lsr har:///my/files.har/my/files/dir
  hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir

第二種格式仍以har方案標示一個HAR檔案系統,但是用hdfs指定基礎檔案系統方案的許可權

要刪除HAR檔案,需要使用遞迴格式進行刪除,因為對於基礎檔案系統來說,HAR檔案是一個目錄

hadoop fs -rmr /my/files.har

不足

新建一個存檔檔案會建立原始檔案的一個副本
一旦建立,不能修改
InputFormat不知道檔案已經存檔

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31383567/viewspace-2144659/，如需轉載，請註明出處，否則將追究法律責任。

相關文章

Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFS
2019-06-26
Hadoop分散式
Flutter持久化儲存之檔案儲存
2019-03-06
Flutter持久化
hadoop之解析HDFS的寫檔案流程
2017-09-07
Hadoop
IOS資料儲存之歸檔/解檔
2016-05-11
iOS
Hadoop 基石HDFS 一文了解檔案儲存系統
2021-06-04
Hadoop
Hadoop之HDFS檔案讀寫流程說明
2018-05-21
Hadoop
大資料時代之hadoop(四)：hadoop 分散式檔案系統（HDFS)
2014-10-20
大資料Hadoop分散式
IOS資料儲存之檔案沙盒儲存
2016-05-11
iOS
hadoop之 hadoop用途方向
2017-08-28
Hadoop
Android中的資料儲存之檔案儲存
2020-03-11
Android
hadoop之 hadoop 機架感知
2017-10-13
Hadoop
hadoop 之Hadoop生態系統
2017-09-06
Hadoop
ORACLE資料檔案儲存之我見
2008-09-17
Oracle
Hadoop檢視檔案///hadoop 清洗檔案出現亂碼
2018-08-22
Hadoop
hadoop異構儲存+lucene索引
2019-08-27
Hadoop索引
存檔
2024-03-23
hadoop之 hadoop日誌存放路徑
2017-10-16
Hadoop
hadoop之 Hadoop 2.x HA 、Federation
2017-10-16
Hadoop
機器學習之儲存與載入.pickle模型檔案
2020-11-08
機器學習模型
Unity遊戲框架設計之存檔管理器
2024-05-01
Unity遊戲框架
Hadoop實戰-中高階部分之 Hadoop 管理
2013-12-11
Hadoop
存檔main
2024-07-01
AI
存個檔
2024-03-12
物件儲存、檔案儲存、塊儲存這三者之間有什麼區別？
2021-09-16
物件
GitLab 之 Git LFS 大檔案儲存的配置
2024-08-10
Gitlab
Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併
2019-01-30
Excel
Hadoop面試題之HDFS
2021-12-23
Hadoop面試題
Hadoop面試題之MapReduce
2021-12-23
Hadoop面試題
Hadoop原理之——HDFS原理
2021-09-09
Hadoop
Hadoop之 Balancer平衡速度
2018-02-01
Hadoop
hadoop 配置檔案簡析
2018-02-05
Hadoop
hadoop叢集安裝檔案
2010-11-09
Hadoop
Hadoop VERSION檔案誤刪
2024-05-07
Hadoop
資料儲存(歸檔解檔，沙河儲存)
2018-03-27
Hadoop實戰-中高階部分之 Hadoop RPC
2013-12-09
HadoopRPC
大資料時代之hadoop(一)：hadoop安裝
2014-10-13
大資料Hadoop
小丸子學Hadoop系列之——部署Hadoop叢集
2015-12-22
Hadoop
Hadoop大資料實戰系列文章之HDFS檔案系統
2020-11-06
Hadoop大資料