Hadoop Archives 小資料處理

Zero麒麟發表於2016-07-07

什麼是Hadoop archives?

Hadoop archives是特殊的檔案格式。一個Hadoop archive對應一個檔案系統目錄。 Hadoop archive的副檔名是*.har。Hadoop archive包含後設資料（形式是_index和_masterindx）和資料（part-*）檔案。_index檔案包含了檔案中的檔案的檔名和位置資訊。

如何建立archive?

用法: hadoop archive -archiveName name <src>* <dest>

由-archiveName選項指定你要建立的archive的名字。比如foo.har。archive的名字的副檔名應該是*.har。輸入是檔案系統的路徑名，路徑名的格式和平時的表達方式一樣。建立的archive會儲存到目標目錄下。注意建立archives是一個Map/Reduce job。你應該在map reduce叢集上執行這個命令。下面是一個例子：

hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/

在上面的例子中， /user/hadoop/dir1 和 /user/hadoop/dir2 會被歸檔到這個檔案系統目錄下 -- /user/zoo/foo.har。當建立archive時，原始檔不會被更改或刪除。

如何檢視archives中的檔案?

archive作為檔案系統層暴露給外界。所以所有的fs shell命令都能在archive上執行，但是要使用不同的URI。另外，archive是不可改變的。所以重新命名，刪除和建立都會返回錯誤。Hadoop Archives 的URI是

har://scheme-hostname:port/archivepath/fileinarchive

如果沒提供scheme-hostname，它會使用預設的檔案系統。這種情況下URI是這種形式

har:///archivepath/fileinarchive

這是一個archive的例子。archive的輸入是/dir。這個dir目錄包含檔案filea，fileb。把/dir歸檔到/user/hadoop/foo.bar的命令是

hadoop archive -archiveName foo.har /dir /user/hadoop

獲得建立的archive中的檔案列表，使用命令

hadoop dfs -lsr har:///user/hadoop/foo.har

檢視archive中的filea檔案的命令-

hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea

微信小程式資料處理
2019-03-03
微信小程式
Hadoop小檔案的處理方式
2020-09-29
Hadoop
avro處理hadoop上的小檔案
2016-05-31
VRHadoop
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
分享Hadoop處理大資料工具及優勢
2018-12-13
Hadoop大資料
Hadoop大資料分散式處理系統簡介
2021-12-22
Hadoop大資料分散式
小程式處理大量資料列表的方法
2019-01-22
大批量資料處理操作小記
2013-03-19
資料演算法 Hadoop/Spark大資料處理---第十六章
2018-07-08
演算法HadoopSpark大資料
Hadoop不適合處理實時資料的原因剖析
2015-02-13
Hadoop
資料演算法 Hadoop/Spark大資料處理---第十二章
2018-07-08
演算法HadoopSpark大資料
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
Hadoop 中處理小檔案的方式， Avro應用
2016-08-10
HadoopVR
資料處理
2024-07-18
大型資料集處理之道：深入瞭解Hadoop及MapReduce原理
2023-10-13
Hadoop
好程式設計師大資料培訓分享Hadoop怎樣處理資料？
2020-10-15
程式設計師大資料Hadoop
Hadoop與Spark等資料處理系統哪個是最好的？
2015-04-28
HadoopSpark
資料預處理
2021-09-09
javascript - 資料處理
2020-12-02
JavaScript
Excel 資料處理
2022-07-21
Excel
海量資料處理
2018-03-08
Panda資料處理
2024-07-15
處理百萬級以上的資料處理
2013-12-16
資料清洗和資料處理
2020-03-03
資料預處理-資料清理
2020-01-19
資料分析--資料預處理
2023-12-14
O'Reilly精品圖書推薦：資料演算法：Hadoop/Spark大資料處理技巧
2017-01-26
演算法HadoopSpark大資料
資料預處理-資料歸約
2020-01-19
資料預處理–資料降維
2016-05-12
資料預處理 demo
2020-02-19
海量資料處理2
2018-08-28
請求資料處理
2018-11-14
python 處理資料
2020-10-29
Python
springmvc 資料處理
2020-10-06
SpringMVC
流資料處理利器
2020-10-09
R缺失資料處理
2016-11-21
處理JSON資料
2017-11-15
JSON
iOS空資料處理
2017-12-13
iOS

Hadoop Archives 小資料處理

什麼是Hadoop archives?

如何建立archive?

如何檢視archives中的檔案?

相關文章