hadoop archive合併小檔案並進行mapreduce來減少map的數量

hgs19921112發表於2018-10-25

這是一篇介紹hadoop archive的文章 : https://www.cnblogs.com/staryea/p/8603112.html

有些文章說經過hadoop archive的檔案,mapreduce的時候會有很多的map但是經過測試,證明這種說法是錯誤的()

如下:原始檔案 四個檔案

經過hadoop archive之後:

執行的命令是:hadoop archive -archiveName words.har -p /words -r 1 /wordhar

生成的檔案在/wordhar/words.har

其中part-0是資料檔案

在mapreduce中,會忽略以下劃線開頭的檔案,也就是說上圖的_SUCCESS,_index,_masterindex是不會處理的

那麼這樣一來就只會處理資料檔案part-0

job設定的輸入路徑是

執行mapreduce中執行的map數量是1

分片為一個

map數量為一個

課件透過hadoop archive的檔案也可以進行mapreduce

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31506529/viewspace-2217579/,如需轉載,請註明出處,否則將追究法律責任。

相關文章