Flume採集資料時在HDFS上產生大量小檔案的問題
呼叫agent 配置檔案的:
#Describe the sink 新增:
a1.sinks.k1.hdfs.rollSize=0
a1.sinks.k1.hdfs.rollCount=0 rollSize 預設值:1024,當臨時檔案達到該大小(單位:bytes)時,滾動成目標檔案。如果設定成0,則表示不根據臨時檔案大小來滾動檔案。 rollCount 預設值:10,當events資料達到該數量時候,將臨時檔案滾動成目標檔案,如果設定成0,則表示不根據events資料來滾動檔案。
還有另一種出現大量小檔案對應的解決方案,即設定a1.sinks.k1.hdfs.minBlockReplicas=1。因為檔案會因為所在塊的複製而滾動檔案 待測試......
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2168827/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Flume採集到HDFS
- 大資料開發-Flume-頻繁產生小檔案原因和處理大資料
- 大量小檔案不適合儲存於HDFS的原因
- Flume:資料匯入到hdfs中
- ngnix叢集產生的問題
- hdfs小檔案分析
- 資料採集元件:Flume基礎用法和Kafka整合元件Kafka
- 大資料3-Flume收集資料+落地HDFS大資料
- JDBC用ResultSet訪問大量資料時會遇到的問題JDBC
- hdfs檔案本地許可權問題
- 日誌採集框架Flume框架
- Flume將 kafka 中的資料轉存到 HDFS 中Kafka
- amazon產品採集資料
- [TroubleShootting]Zabbix資料採集出現斷點的問題斷點
- Restcloud ETL實踐之Excel檔案資料採集RESTCloudExcel
- Hadoop3.2.1 【 HDFS 】原始碼分析 : 檔案系統資料集 [一]Hadoop原始碼
- 批量刪除大量小檔案
- 大資料工程師入門系列—常用資料採集工具(Flume、Logstash 和 Fluentd)大資料工程師
- 談談大資料採集和常見問題大資料
- PHP 上傳檔案找不到 tmp_name 臨時檔案的問題PHP
- [20221014]資料檔案2的小疑問.txt
- HDFS 07 - HDFS 效能調優之 合併小檔案
- 使用Flume消費Kafka資料到HDFSKafka
- 用DolphinScheduler輕鬆實現Flume資料採集任務自動化!
- 求助 | 天氣預報資料採集,更新入庫的問題!
- Oracle資料倉儲的實時資料採集XSOracle
- MySQL:產生大量小relay log的故障一例MySql
- 大資料檔案儲存系統HDFS大資料
- 大資料 | 分散式檔案系統 HDFS大資料分散式
- 【大資料】【hadoop】檢視hdfs檔案命令大資料Hadoop
- 30G 上億資料的超大檔案,如何快速匯入生產環境?
- 跑在檔案系統上的資料倉儲
- Flume實時監控 單個追加檔案
- 處理檔案上傳時的訊息格式轉換問題
- 如何獲取HDFS上檔案的儲存位置
- 跑在檔案系統上的資料倉儲,強!
- flume日誌採集,hbase資料儲存,hive查詢輸出(簡單整合)Hive
- 檔案上傳常見問題