Flume 整合 Kafka_flume 到kafka 配置【轉】

paul_hch發表於2024-04-15

1.背景
先說一下,為什麼要使用 Flume + Kafka?

以實時流處理專案為例,由於採集的資料量可能存在峰值和峰谷,假設是一個電商專案,那麼峰值通常出現在秒殺時,這時如果直接將 Flume 聚合後的資料輸入到 Storm 等分散式計算框架中,可能就會超過叢集的處理能力,這時採用 Kafka 就可以起到削峰的作用。Kafka 天生為大資料場景而設計,具有高吞吐的特性,能很好地抗住峰值資料的衝擊。

2.整合流程
Flume 傳送資料到 Kafka 上主要是透過 `KafkaSink` 來實現的,主要步驟如下:

1. 啟動Zookeeper和Kafka

這裡啟動一個單節點的 Kafka 作為測試:

# 啟動Zookeeper
zkServer.sh start

# 啟動kafka
bin/kafka-server-start.sh config/server.properties
2. 建立主題

建立一個主題 `flume-kafka`,之後 Flume 收集到的資料都會發到這個主題上:

# 建立主題
bin/kafka-topics.sh --create \
--zookeeper hadoop001:2181 \
--replication-factor 1 \
--partitions 1 --topic flume-kafka

# 檢視建立的主題
bin/kafka-topics.sh --zookeeper hadoop001:2181 --list
3. 啟動kafka消費者

啟動一個消費者,監聽我們剛才建立的 `flume-kafka` 主題:

# bin/kafka-console-consumer.sh --bootstrap-server hadoop001:9092 --topic flume-kafka
4. 配置Flume

新建配置檔案 `exec-memory-kafka.properties`,檔案內容如下。這裡我們監聽一個名為 `kafka.log` 的檔案,當檔案內容有變化時,將新增加的內容傳送到 Kafka 的 `flume-kafka` 主題上。

a1.sources = s1
a1.channels = c1
a1.sinks = k1

a1.sources.s1.type=exec
a1.sources.s1.command=tail -F /tmp/kafka.log
a1.sources.s1.channels=c1

#設定Kafka接收器
a1.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink
#設定Kafka地址
a1.sinks.k1.brokerList=hadoop001:9092
#設定傳送到Kafka上的主題
a1.sinks.k1.topic=flume-kafka
#設定序列化方式
a1.sinks.k1.serializer.class=kafka.serializer.StringEncoder
a1.sinks.k1.channel=c1

a1.channels.c1.type=memory
a1.channels.c1.capacity=10000
a1.channels.c1.transactionCapacity=100
5. 啟動Flume

flume-ng agent \
--conf conf \
--conf-file /usr/app/apache-flume-1.6.0-cdh5.15.2-bin/examples/exec-memory-kafka.properties \
--name a1 -Dflume.root.logger=INFO,console
6. 測試

向監聽的 `/tmp/kafka.log ` 檔案中追加內容,檢視 Kafka 消費者的輸出:

可以看到 `flume-kafka` 主題的消費端已經收到了對應的訊息:

轉自

Flume 整合 Kafka_flume 到kafka 配置-CSDN部落格
https://blog.csdn.net/shangjg03/article/details/133870099

相關文章