Hadoop Archives 小資料處理
什麼是Hadoop archives?
Hadoop archives是特殊的檔案格式。一個Hadoop archive對應一個檔案系統目錄。 Hadoop archive的副檔名是*.har。Hadoop archive包含後設資料(形式是_index和_masterindx)和資料(part-*)檔案。_index檔案包含了檔案中的檔案的檔名和位置資訊。
如何建立archive?
用法: hadoop archive -archiveName name <src>* <dest>
由-archiveName選項指定你要建立的archive的名字。比如foo.har。archive的名字的副檔名應該是*.har。輸入是檔案系統的路徑名,路徑名的格式和平時的表達方式一樣。建立的archive會儲存到目標目錄下。注意建立archives是一個Map/Reduce job。你應該在map reduce叢集上執行這個命令。下面是一個例子:
hadoop archive -archiveName foo.har /user/hadoop/dir1 /user/hadoop/dir2 /user/zoo/
在上面的例子中, /user/hadoop/dir1 和 /user/hadoop/dir2 會被歸檔到這個檔案系統目錄下 -- /user/zoo/foo.har。當建立archive時,原始檔不會被更改或刪除。
如何檢視archives中的檔案?
archive作為檔案系統層暴露給外界。所以所有的fs shell命令都能在archive上執行,但是要使用不同的URI。 另外,archive是不可改變的。所以重新命名,刪除和建立都會返回錯誤。Hadoop Archives 的URI是
har://scheme-hostname:port/archivepath/fileinarchive
如果沒提供scheme-hostname,它會使用預設的檔案系統。這種情況下URI是這種形式
har:///archivepath/fileinarchive
這是一個archive的例子。archive的輸入是/dir。這個dir目錄包含檔案filea,fileb。 把/dir歸檔到/user/hadoop/foo.bar的命令是
hadoop archive -archiveName foo.har /dir /user/hadoop
獲得建立的archive中的檔案列表,使用命令
hadoop dfs -lsr har:///user/hadoop/foo.har
檢視archive中的filea檔案的命令-
hadoop dfs -cat har:///user/hadoop/foo.har/dir/filea
相關文章
- 微信小程式資料處理微信小程式
- Hadoop小檔案的處理方式Hadoop
- avro處理hadoop上的小檔案VRHadoop
- 大資料學習之Hadoop如何高效處理大資料大資料Hadoop
- 分享Hadoop處理大資料工具及優勢Hadoop大資料
- Hadoop大資料分散式處理系統簡介Hadoop大資料分散式
- 小程式處理大量資料列表的方法
- 大批量資料處理操作小記
- 資料演算法 Hadoop/Spark大資料處理---第十六章演算法HadoopSpark大資料
- Hadoop不適合處理實時資料的原因剖析Hadoop
- 資料演算法 Hadoop/Spark大資料處理---第十二章演算法HadoopSpark大資料
- Python資料處理(二):處理 Excel 資料PythonExcel
- Hadoop 中處理小檔案的方式, Avro應用HadoopVR
- 資料處理
- 大型資料集處理之道:深入瞭解Hadoop及MapReduce原理Hadoop
- 好程式設計師大資料培訓分享Hadoop怎樣處理資料?程式設計師大資料Hadoop
- Hadoop與Spark等資料處理系統哪個是最好的?HadoopSpark
- 資料預處理
- javascript - 資料處理JavaScript
- Excel 資料處理Excel
- 海量資料處理
- Panda資料處理
- 處理百萬級以上的資料處理
- 資料清洗和資料處理
- 資料預處理-資料清理
- 資料分析--資料預處理
- O'Reilly精品圖書推薦:資料演算法:Hadoop/Spark大資料處理技巧演算法HadoopSpark大資料
- 資料預處理-資料歸約
- 資料預處理–資料降維
- 資料預處理 demo
- 海量資料處理2
- 請求資料處理
- python 處理資料Python
- springmvc 資料處理SpringMVC
- 流資料處理利器
- R缺失資料處理
- 處理JSON資料JSON
- iOS空資料處理iOS