Flume採集到HDFS
一、需求:
採集指定檔案的內容到HDFS
技術選型:exec - memory - hdfs
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = exec a1.sources.r1.command = tail -F /home/hadoop/data/data.log # Describe the sink a1.sinks.k1.type = hdfs a1.sinks.k1.hdfs.path = hdfs://192.168.0.129:9000/user/hadoop/flume a1.sinks.k1.hdfs.batchSize = 10 #10行產生新檔案 a1.sinks.k1.hdfs.fileType = DataStream #壓縮格式 a1.sinks.k1.hdfs.writeFormat = Text #格式型別 # Use a channel which buffers events in memory a1.channels.c1.type = memory # Bind the source and sink to the channel a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1
啟動:
./flume-ng agent \ --name a1 \ --conf $FLUME_HOME/conf \ --conf-file /home/hadoop/script/flume/exec-memory-hdfs.conf \ -Dflume.root.logger=INFO,console \ -Dflume.monitoring.type=http \ -Dflume.monitoring.port=34343
新增測試資料:
[hadoop@hadoop001 data]$ touch data.log [hadoop@hadoop001 data]$ echo test >> data.log [hadoop@hadoop001 data]$ echo test >> data.log [hadoop@hadoop001 data]$ echo test >> data.log [hadoop@hadoop001 data]$ echo test >> data.log [hadoop@hadoop001 data]$ echo test >> data.log
檢查HDFS:
[hadoop@hadoop001 flume]$ hdfs dfs -text hdfs://192.168.0.129:9000/user/hadoop/flume/* 18/08/09 20:59:02 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable test test test test test
二、需求:
採集指定資料夾的內容到(HDFS或者控制檯)
==》資料夾下檔案不能修改切不能重名
==》處理完當前檔案新增 .COMPLETED標識
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = spooldir a1.sources.r1.spoolDir = /home/hadoop/data/ a1.sources.r1.fileHeader = true # Describe the sink a1.sinks.k1.type = logger # Use a channel which buffers events in memory a1.channels.c1.type = memory # Bind the source and sink to the channel a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1
三、需求:(生產使用,記錄偏移量)
採集指定資料夾和檔案內容到( 控制檯 或者 HDFS )
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = TAILDIR a1.sources.r1.channels = c1 #記錄偏移量,重啟續傳 a1.sources.r1.positionFile = /home/hadoop/script/flume/taildir_position.json a1.sources.r1.filegroups = f1 f2 #監控指定log檔案 a1.sources.r1.filegroups.f1 =/home/hadoop/data/example.log a1.sources.r1.headers.f1.headerKey1 = value1 #監控文加下的所有log*資料夾和內容 a1.sources.r1.filegroups.f2 = /home/hadoop/data/test/.*log.* a1.sources.r1.headers.f2.headerKey1 = value2 a1.sources.r1.headers.f2.headerKey2 = value2-2 # 控制檯輸出 a1.sinks.k1.type = logger # Use a channel which buffers events in memory a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 # Bind the source and sink to the channel a1.sources.r1.channels = c1 a1.sinks.k1.channel = c1
啟動:
./flume-ng agent \ --name a1 \ --conf $FLUME_HOME/conf \ --conf-file /home/hadoop/script/flume/taildir-memory-logger.conf \ -Dflume.root.logger=INFO,console
記錄偏移量:
[hadoop@hadoop001 flume]$ cat taildir_position.json
[{"inode":679982," pos":14 ,"file":"/home/hadoop/data/example.log"}
{"inode":679984,"pos":0,"file":"/home/hadoop/data/test/log1.log"}]
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2199595/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 日誌採集框架Flume框架
- Flume:資料匯入到hdfs中
- Flume採集資料時在HDFS上產生大量小檔案的問題
- 資料採集元件:Flume基礎用法和Kafka整合元件Kafka
- 使用Flume消費Kafka資料到HDFSKafka
- Flume 整合 Kafka_flume 到kafka 配置【轉】Kafka
- 如何獲取Flume連線HDFS所需要的包
- Flume將 kafka 中的資料轉存到 HDFS 中Kafka
- 大資料3-Flume收集資料+落地HDFS大資料
- 用DolphinScheduler輕鬆實現Flume資料採集任務自動化!
- 大資料工程師入門系列—常用資料採集工具(Flume、Logstash 和 Fluentd)大資料工程師
- flume日誌採集,hbase資料儲存,hive查詢輸出(簡單整合)Hive
- HDFS分散式叢集搭建分散式
- Flume收集日誌到本地目錄
- vs聯合halcon——採集影像(實時採集與單次採集)
- 抖音商家資訊採集器,抖音小店採集 電話採集
- 地圖資料採集,包括百度地圖採集,高德地圖採集,360地圖採集地圖
- API採集介面原始碼電商採集工具介面API原始碼
- docker下,極速搭建spark叢集(含hdfs叢集)DockerSpark
- 能夠採集小紅書圖片、視訊的軟體,一鍵自動批量採集到電腦上
- flume
- 自媒體素材採集平臺,採集影片文章素材
- 大資料應用-Flume+HBase+Kafka整合資料採集/儲存/分發完整流程測試03.大資料Kafka
- vivo 萬臺規模 HDFS 叢集升級 HDFS 3.x 實踐
- Logtail從入門到精通(二):開啟日誌採集之旅AI
- hdfs叢集的擴容和縮容
- 1688阿里巴巴賣家電話採集軟體 阿里巴巴國際站採集 京東採集阿里
- .NET 音訊採集音訊
- 日誌採集/分析
- 招聘資訊採集
- Kubernetes日誌採集
- 自媒體素材採集平臺,素材採集方法都有這些
- (一)hadoop叢集搭建——1.4hdfs的操作Hadoop
- Flume概述
- flume + elasticsearchElasticsearch
- Flume:spark-project專案的flume配置SparkProject
- 【京東】商品list列表採集+類目下的商品列表資料採集
- 前端埋點資料採集(一)採集系統架構設計前端架構