Kafka實戰－Flume到Kafka

哥不是小蘿莉發表於2015-07-02

1.概述

　　前面給大家介紹了整個Kafka專案的開發流程，今天給大家分享Kafka如何獲取資料來源，即Kafka生產資料。下面是今天要分享的目錄：

資料來源
Flume到Kafka
資料來源載入
預覽

　　下面開始今天的分享內容。

2.資料來源

　　Kafka生產的資料，是由Flume的Sink提供的，這裡我們需要用到Flume叢集，通過Flume叢集將Agent的日誌收集分發到Kafka（供實時計算處理）和HDFS（離線計算處理）。關於Flume叢集的Agent部署，這裡就不多做贅述了，不清楚的同學可以參考《高可用Hadoop平臺－Flume NG實戰圖解篇》一文中的介紹，下面給大家介紹資料來源的流程圖，如下圖所示：

　　這裡，我們使用Flume作為日誌收集系統，將收集到的資料輸送到Kafka中介軟體，以供Storm去實時消費計算，整個流程從各個Web節點上，通過Flume的Agent代理收集日誌，然後彙總到Flume叢集，在由Flume的Sink將日誌輸送到Kafka叢集，完成資料的生產流程。

3.Flume到Kafka

　　從圖，我們已經清楚了資料生產的流程，下面我們來看看如何實現Flume到Kafka的輸送過程，下面我用一個簡要的圖來說明，如下圖所示：

　　這個表達了從Flume到Kafka的輸送工程，下面我們來看看如何實現這部分。

　　首先，在我們完成這部分流程時，需要我們將Flume叢集和Kafka叢集都部署完成，在完成部署相關叢集后，我們來配置Flume的Sink資料流向，配置資訊如下所示：

首先是配置spooldir方式，內容如下所示：

producer.sources.s.type = spooldir
producer.sources.s.spoolDir = /home/hadoop/dir/logdfs

當然，Flume的資料傳送方型別也是多種型別的，有：Console、Text、HDFS、RPC等，這裡我們系統所使用的是Kafka中介軟體來接收，配置內容如下所示：

producer.sinks.r.type = org.apache.flume.plugins.KafkaSink
producer.sinks.r.metadata.broker.list=dn1:9092,dn2:9092,dn3:9092
producer.sinks.r.partition.key=0
producer.sinks.r.partitioner.class=org.apache.flume.plugins.SinglePartition
producer.sinks.r.serializer.class=kafka.serializer.StringEncoder
producer.sinks.r.request.required.acks=0
producer.sinks.r.max.message.size=1000000
producer.sinks.r.producer.type=sync
producer.sinks.r.custom.encoding=UTF-8
producer.sinks.r.custom.topic.name=test

　　這樣，我們就在Flume的Sink端配置好了資料流向接受方。

4.資料載入

　　在完成配置後，接下來我們開始載入資料，首先我們在Flume的spooldir端生產日誌，以供Flume去收集這些日誌。然後，我們通過Kafka的KafkaOffsetMonitor監控工具，去監控資料生產的情況，下面我們開始載入。

啟動ZK叢集，內容如下所示：

zkServer.sh start

　　注意：分別在ZK的節點上啟動。

啟動Kafka叢集

kafka-server-start.sh config/server.properties &

　　在其他的Kafka節點輸入同樣的命令，完成啟動。

啟動Kafka監控工具

java -cp KafkaOffsetMonitor-assembly-0.2.0.jar \
 com.quantifind.kafka.offsetapp.OffsetGetterWeb \
 --zk dn1:2181,dn2:2181,dn3:2181 \
 --port 8089 \
 --refresh 10.seconds \
 --retain 1.days

啟動Flume叢集

flume-ng agent -n producer -c conf -f flume-kafka-sink.properties -Dflume.root.logger=ERROR,console

　　然後，我在/home/hadoop/dir/logdfs目錄下上傳log日誌，這裡我只抽取了一少部分日誌進行上傳，如下圖所示，表示日誌上傳成功。

5.預覽

　　下面，我們通過Kafka的監控工具，來預覽我們上傳的日誌記錄，有沒有在Kafka中產生訊息資料，如下所示：

啟動Kafka叢集，為生產訊息截圖預覽

通過Flume上傳日誌，在Kafka中產生訊息資料

6.總結

　　本篇文章給大家講述了Kafka的訊息產生流程，後續會在Kafka實戰系列中為大家講述Kafka的訊息消費流程等一整套流程，這裡只是為後續的Kafka實戰編碼打下一個基礎，讓大家先對Kafka的訊息生產有個整體的認識。

7.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

Flume 整合 Kafka_flume 到kafka 配置【轉】
2024-04-15
Kafka
Kafka實戰－Kafka到Storm
2015-07-09
KafkaORM
Kafka實戰－Kafka Cluster
2015-05-29
Kafka
kafka+flume的整合
2021-09-09
Kafka
Flume + Kafka + SparkStreaming分析
2017-06-04
KafkaSpark
Kafka實戰－KafkaOffsetMonitor
2016-01-25
Kafka
KafKa+Zookeeper+Flume部署指令碼
2017-12-19
Kafka指令碼
Kafka 原理和實戰
2019-08-20
Kafka
kafka實戰教學
2018-03-26
Kafka
Kafka實戰－入門
2015-05-26
Kafka
Kafka實戰－Storm Cluster
2015-06-18
KafkaORM
flume-ng+Kafka+Storm+HDFS 實時系統搭建
2015-02-24
KafkaORM
Kafka實戰(三) - Kafka的自我修養與定位
2020-01-23
Kafka
使用Flume消費Kafka資料到HDFS
2018-11-19
Kafka
新版flume+kafka+storm安裝部署
2015-08-27
KafkaORM
實戰Kafka ACL機制
2018-06-17
Kafka
Kafka實戰－簡單示例
2015-06-01
Kafka
Kafka應用實戰——Kafka安裝及簡單使用
2018-08-06
Kafka
flume+kafka+storm+mysql架構設計
2014-03-09
KafkaORMMySql架構
Flink-Kafka-Connector Flink結合Kafka實戰
2019-03-03
Kafka
Apache Kafka 程式設計實戰
2019-03-24
ApacheKafka程式設計
Kafka萬億級訊息實戰
2021-05-18
Kafka
Kafka 分割槽備份實戰
2016-11-04
Kafka
Kafka實戰－資料持久化
2016-04-25
Kafka持久化
【Kafka專欄】-Kafka從初始到搭建到應用
2018-01-26
Kafka
kafka生產環境規劃-kafka 商業環境實戰
2018-10-27
Kafka
【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 實時系統搭建
2015-11-18
ORMKafka
Kafka上K8S實戰
2022-03-02
KafkaK8S
SpringBoot整合kafka全面實戰
2020-10-16
Spring BootKafka
KubeSphere 部署 Kafka 叢集實戰指南
2024-08-09
Kafka
Kafka實戰寶典：Kafka的控制器controller詳解
2020-09-21
KafkaController
Flume將 kafka 中的資料轉存到 HDFS 中
2018-12-19
Kafka
Flume+Kafka收集Docker容器內分散式日誌應用實踐
2019-07-28
KafkaDocker分散式
Kafka實戰－實時日誌統計流程
2015-06-16
Kafka
Kafka從入門到放棄(一) —— 初識Kafka
2021-12-02
Kafka
Flink的sink實戰之二：kafka
2021-09-09
Kafka
kafka 安裝到使用
2020-06-10
Kafka
大資料流處理：Flume、Kafka和NiFi對比
2019-07-19
大資料KafkaNifi