hadoop的archive歸檔和CombineFileInputFormat的使用

月夜原野發表於2017-10-16

在使用mapreduce進行計算的時候，有時候會因為小檔案過多，導致map任務過多，用下面的方式（CombineFileInputFormat），可以減少map數量：

http://www.cnblogs.com/skyl/p/4761662.html

原來flume上傳好多個小檔案，但是hdfs的塊兒大小設定為64M，而hadoop一直非常討厭小檔案，因為小檔案會佔用大量的namenode空間，我一直沒有弄懂怎麼解決這個矛盾；直到今天，我才懂得了，那麼多的小檔案，在使用的時候，是先要用archive進行歸檔，變成一個大檔案；一般幾百個檔案變成一個檔案，然後將所有的小檔案刪除，就剩下一個大檔案，那麼namenode的檔案後設資料就會大大的減少

可以使用archive歸檔：

hadoop archive -archiveName 2015-11-11.har -p /flumeTest/0123-62F9-5FAB-9A69-D134-8E98-3D5A-1012-035E-606F-E162/2015-11-11/ /tmp/archive/it

檢視：hadoop dfs -ls har:///tmp/archive/it/2015-11-11.har

更改archive log 歸檔路徑和歸檔檔名稱
2011-07-01
Hive
TSM中備份（Backup）和歸檔（Archive）的區別
2012-01-10
Hive
oracle archive歸檔初步
2013-04-01
OracleHive
archive啟用歸檔模式
2014-03-26
Hive模式
archive log 歸檔日誌
2011-06-24
Hive
【archive_dest】歸檔的路徑問題
2013-03-13
Hive
oracle archive log 歸檔日誌
2008-04-05
OracleHive
測試log_archive_dest_1與log_archive_format對生成的歸檔檔名的影響
2016-02-01
HiveORM
Oracle archive log 歸檔日誌管理
2011-01-31
OracleHive
閃回資料歸檔-- Flashback Data Archive
2014-04-16
Hive
[Archive]更改ORACLE預設歸檔路徑
2016-02-15
HiveOracle
archive log 歸檔模式啟動關閉
2011-06-24
Hive模式
Oracle Flashback Archive——Oracle閃迴歸檔（上）
2015-10-08
OracleHive
Oracle Flashback Archive——Oracle閃迴歸檔（中）
2015-10-08
OracleHive
Oracle Flashback Archive——Oracle閃迴歸檔（下）
2015-10-08
OracleHive
hadoop透過CombineFileInputFormat實現小檔案合併減少map的個數
2018-10-25
HadoopORM
強制歸檔引數ARCHIVE_LAG_TARGET
2009-08-02
Hive
【ARCHIVE】使用startup mount force啟動資料庫後無法修改歸檔模式的模擬
2010-03-02
Hive資料庫模式
Oracle歸檔模式和非歸檔模式的區別
2014-09-24
Oracle模式
歸檔日誌路徑三個引數DB_RECOVERY_FILE_DEST和LOG_ARCHIVE_DEST和LOG_ARCHIVE_DEST_n
2015-06-10
Hive
ARCHIVE歸檔日誌爆滿故障ORA-00257
2015-06-23
Hive
Oracle 歸檔和非歸檔模式之間的切換
2012-06-10
Oracle模式
更改oracle10g的歸檔模式和歸檔路徑
2011-09-05
Oracle模式
【ARCHIVE】單機環境修改資料庫為歸檔模式
2010-04-20
Hive資料庫模式
oracle10g 歸檔模式和非歸檔模式的轉換
2009-07-30
Oracle模式
Oracle歸檔模式和非歸檔模式
2017-04-23
Oracle模式
hadoop archive合併小檔案並進行mapreduce來減少map的數量
2018-10-25
HadoopHive
【ARCHIVE】單機環境修改資料庫為非歸檔模式
2015-10-22
Hive資料庫模式
ORACLE RAC模式下歸檔模式和非歸檔模式的切換方法
2009-12-15
Oracle模式
缺少log_archive_config導致歸檔路徑被禁用
2011-01-07
Hive
11G flashback data archive 導致產生大量歸檔日誌
2012-08-14
Hive
Oracle 歸檔與非歸檔模式的更改
2012-03-13
Oracle模式
設定 _LOG_ARCHIVE_CALLOUT='LOCAL_FIRST=TRUE' 後是傳輸歸檔？
2009-03-05
Hive
Oracle 11g新特性--閃回資料歸檔(flashback data archive)[zt]
2007-09-24
OracleHive
iOS 複雜物件的歸檔與反歸檔
2018-12-20
iOS物件
歸檔模式與非歸檔模式的切換
2014-03-06
模式
oracle的歸檔模式
2011-03-08
Oracle模式
配置歸檔位置和檔案格式
2016-09-19

hadoop的archive歸檔和CombineFileInputFormat的使用

相關文章