Flume採集資料時在HDFS上產生大量小檔案的問題
呼叫agent 配置檔案的:
#Describe the sink 新增:
a1.sinks.k1.hdfs.rollSize=0
a1.sinks.k1.hdfs.rollCount=0 rollSize 預設值:1024,當臨時檔案達到該大小(單位:bytes)時,滾動成目標檔案。如果設定成0,則表示不根據臨時檔案大小來滾動檔案。 rollCount 預設值:10,當events資料達到該數量時候,將臨時檔案滾動成目標檔案,如果設定成0,則表示不根據events資料來滾動檔案。
還有另一種出現大量小檔案對應的解決方案,即設定a1.sinks.k1.hdfs.minBlockReplicas=1。因為檔案會因為所在塊的複製而滾動檔案 待測試......
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2168827/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料開發-Flume-頻繁產生小檔案原因和處理大資料
- 大量小檔案不適合儲存於HDFS的原因
- EM執行後產生大量err檔案
- Flume:資料匯入到hdfs中
- 解決從linux本地檔案系統上傳檔案到HDFS時的許可權問題Linux
- 資料採集元件:Flume基礎用法和Kafka整合元件Kafka
- amazon產品採集資料
- hdfs小檔案分析
- 上傳檔案超時問題
- HIVE 在執行大量資料JOIN的時候,容易產生記憶體不足的情況Hive記憶體
- 大資料3-Flume收集資料+落地HDFS大資料
- 日誌採集框架Flume框架
- 關於websphere5.1產生大量heapdump檔案原因Web
- MapReduce 大量小檔案
- JDBC用ResultSet訪問大量資料時會遇到的問題JDBC
- Flume將 kafka 中的資料轉存到 HDFS 中Kafka
- hdfs檔案本地許可權問題
- oracle ocfs 叢集檔案系統新增資料檔案帶來的問題Oracle
- Restcloud ETL實踐之Excel檔案資料採集RESTCloudExcel
- MySQL:產生大量小relay log的故障一例MySql
- 生產oracle字符集轉碼問題Oracle
- 談談大資料採集和常見問題大資料
- [TroubleShootting]Zabbix資料採集出現斷點的問題斷點
- 批量刪除大量小檔案
- 使用Flume消費Kafka資料到HDFSKafka
- 大資料架構:flume-ng+Kafka+Storm+HDFS 實時系統組合大資料架構KafkaORM
- 30G 上億資料的超大檔案,如何快速匯入生產環境?
- 資料庫自增主鍵可能產生的問題資料庫
- 在PHP中怎麼解決大量資料處理的問題PHP
- Oracle資料倉儲的實時資料採集XSOracle
- PHP 上傳檔案找不到 tmp_name 臨時檔案的問題PHP
- 讀檔案時,產生大量的記憶體無法釋放,麻煩各位看一下記憶體
- Hadoop3.2.1 【 HDFS 】原始碼分析 : 檔案系統資料集 [一]Hadoop原始碼
- HDFS 07 - HDFS 效能調優之 合併小檔案
- HDFS讀檔案過程分析:讀取檔案的Block資料BloC
- C# 在採集資料時的驗證與登入處理C#
- 求助 | 天氣預報資料採集,更新入庫的問題!
- 資料採集,微軟控制元件分頁問題的處理微軟控制元件