hadoop的archive歸檔和CombineFileInputFormat的使用
在使用mapreduce進行計算的時候,有時候會因為小檔案過多,導致map任務過多,用下面的方式(CombineFileInputFormat),可以減少map數量:
http://www.cnblogs.com/skyl/p/4761662.html 原來flume上傳好多個小檔案,但是hdfs的塊兒大小設定為64M,而hadoop一直非常討厭小檔案,因為小檔案會佔用大量的namenode空間,我一直沒有弄懂怎麼解決這個矛盾;直到今天,我才懂得了,那麼多的小檔案,在使用的時候,是先要用archive進行歸檔,變成一個大檔案;一般幾百個檔案變成一個檔案,然後將所有的小檔案刪除,就剩下一個大檔案,那麼namenode的檔案後設資料就會大大的減少
可以使用archive歸檔:
hadoop archive -archiveName 2015-11-11.har -p /flumeTest/0123-62F9-5FAB-9A69-D134-8E98-3D5A-1012-035E-606F-E162/2015-11-11/ /tmp/archive/it
檢視:hadoop dfs -ls har:///tmp/archive/it/2015-11-11.har
相關文章
- 更改archive log 歸檔路徑和歸檔檔名稱Hive
- TSM中備份(Backup)和歸檔(Archive)的區別Hive
- oracle archive歸檔初步OracleHive
- archive啟用歸檔模式Hive模式
- archive log 歸檔日誌Hive
- 【archive_dest】歸檔的路徑問題Hive
- oracle archive log 歸檔日誌OracleHive
- 測試log_archive_dest_1與log_archive_format對生成的歸檔檔名的影響HiveORM
- Oracle archive log 歸檔日誌管理OracleHive
- 閃回資料歸檔-- Flashback Data ArchiveHive
- [Archive]更改ORACLE預設歸檔路徑HiveOracle
- archive log 歸檔模式 啟動關閉Hive模式
- Oracle Flashback Archive——Oracle閃迴歸檔(上)OracleHive
- Oracle Flashback Archive——Oracle閃迴歸檔(中)OracleHive
- Oracle Flashback Archive——Oracle閃迴歸檔(下)OracleHive
- hadoop透過CombineFileInputFormat實現小檔案合併減少map的個數HadoopORM
- 強制歸檔引數ARCHIVE_LAG_TARGETHive
- 【ARCHIVE】使用startup mount force啟動資料庫後無法修改歸檔模式的模擬Hive資料庫模式
- Oracle歸檔模式和非歸檔模式的區別Oracle模式
- 歸檔日誌路徑三個引數DB_RECOVERY_FILE_DEST和LOG_ARCHIVE_DEST和LOG_ARCHIVE_DEST_nHive
- ARCHIVE歸檔日誌爆滿故障ORA-00257Hive
- Oracle 歸檔和非歸檔模式之間的切換Oracle模式
- 更改oracle10g的歸檔模式和歸檔路徑Oracle模式
- 【ARCHIVE】單機環境修改資料庫為歸檔模式Hive資料庫模式
- oracle10g 歸檔模式和非歸檔模式的轉換Oracle模式
- Oracle歸檔模式和非歸檔模式Oracle模式
- hadoop archive合併小檔案並進行mapreduce來減少map的數量HadoopHive
- 【ARCHIVE】單機環境修改資料庫為非歸檔模式Hive資料庫模式
- ORACLE RAC模式下歸檔模式和非歸檔模式的切換方法Oracle模式
- 缺少log_archive_config導致歸檔路徑被禁用Hive
- 11G flashback data archive 導致產生大量歸檔日誌Hive
- Oracle 歸檔與非歸檔模式的更改Oracle模式
- 設定 _LOG_ARCHIVE_CALLOUT='LOCAL_FIRST=TRUE' 後是傳輸歸檔 ?Hive
- Oracle 11g新特性--閃回資料歸檔(flashback data archive)[zt]OracleHive
- iOS 複雜物件的歸檔與反歸檔iOS物件
- 歸檔模式與非歸檔模式的切換模式
- oracle的歸檔模式Oracle模式
- 配置歸檔位置和檔案格式