hadoop之 HDFS-Hadoop存檔
- 每個檔案按塊方式儲存, 每個塊的後設資料儲存在namenode的記憶體中
- Hadoop存檔檔案或HAR檔案是一個更高效的檔案存檔工具,它將檔案存入HDFS塊,在減少記憶體使用的同時,允許對檔案進行透明地訪問
- Hadoop存檔檔案可以用作MapReduce的輸入
使用Hadoop存檔工具
- Hadoop存檔是透過archive工具根據一組檔案建立而來的,該存檔工具執行一個MapReduce作業來並行處理所有的輸入檔案
- 使用archive
hadoop archive -archiveName files.har /my/files /my
- 第一個選項是存檔檔案的名稱,這裡是第一個引數 file.har
- 第二個引數是需要存檔的檔案
- 第三個引數是HAR檔案的輸出目錄
- 列出HAR檔案中的檔案
hadoop fs -ls /my/files.har
-
遞迴列出HAR檔案中的檔案
hadoop fs -lsr /my/files.har
-
其他檔案系統中引用HAR檔案,則需要使用不同的URI路徑格式,示例如下
hadoop fs -lsr har:///my/files.har/my/files/dir
hadoop fs -lsr har://hdfs-localhost:8020/my/files.har/my/files/dir
第二種格式仍以har方案標示一個HAR檔案系統,但是用hdfs指定基礎檔案系統方案的許可權
-
要刪除HAR檔案,需要使用遞迴格式進行刪除,因為對於基礎檔案系統來說,HAR檔案是一個目錄
hadoop fs -rmr /my/files.har
不足
- 新建一個存檔檔案會建立原始檔案的一個副本
- 一旦建立,不能修改
- InputFormat不知道檔案已經存檔
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31383567/viewspace-2144659/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hadoop 三劍客之 —— 分散式檔案儲存系統 HDFSHadoop分散式
- Flutter持久化儲存之檔案儲存Flutter持久化
- hadoop之 解析HDFS的寫檔案流程Hadoop
- IOS資料儲存之歸檔/解檔iOS
- Hadoop 基石HDFS 一文了解檔案儲存系統Hadoop
- Hadoop之HDFS檔案讀寫流程說明Hadoop
- 大資料時代之hadoop(四):hadoop 分散式檔案系統(HDFS)大資料Hadoop分散式
- IOS資料儲存之檔案沙盒儲存iOS
- hadoop之 hadoop用途方向Hadoop
- Android中的資料儲存之檔案儲存Android
- hadoop之 hadoop 機架感知Hadoop
- hadoop 之Hadoop生態系統Hadoop
- ORACLE資料檔案儲存之我見Oracle
- Hadoop檢視檔案///hadoop 清洗檔案出現亂碼Hadoop
- hadoop異構儲存+lucene索引Hadoop索引
- 存檔
- hadoop之 hadoop日誌存放路徑Hadoop
- hadoop之 Hadoop 2.x HA 、FederationHadoop
- 機器學習之儲存與載入.pickle模型檔案機器學習模型
- Unity遊戲框架設計之存檔管理器Unity遊戲框架
- Hadoop實戰-中高階部分 之 Hadoop 管理Hadoop
- 存檔mainAI
- 存個檔
- 物件儲存、檔案儲存、塊儲存這三者之間有什麼區別?物件
- GitLab 之 Git LFS 大檔案儲存的配置Gitlab
- Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併Excel
- Hadoop面試題之HDFSHadoop面試題
- Hadoop面試題之MapReduceHadoop面試題
- Hadoop原理之——HDFS原理Hadoop
- Hadoop之 Balancer平衡速度Hadoop
- hadoop 配置檔案簡析Hadoop
- hadoop叢集安裝檔案Hadoop
- Hadoop VERSION檔案誤刪Hadoop
- 資料儲存(歸檔解檔,沙河儲存)
- Hadoop實戰-中高階部分 之 Hadoop RPCHadoopRPC
- 大資料時代之hadoop(一):hadoop安裝大資料Hadoop
- 小丸子學Hadoop系列之——部署Hadoop叢集Hadoop
- Hadoop大資料實戰系列文章之HDFS檔案系統Hadoop大資料