Kafka 簡介 & 整合 SpringBoot

glmapper發表於2019-03-06

原文網址 : http://juejin.im/post/5c7febd0e51d4542176d1102

近期在做 SOFA 與 SpringCloud 的整合，希望通過一系列的 DEMO 工程去幫助大家更好的使用 SOFA 和 SpringCloud；同時也希望大家一起來參與共建和 star。

GitHub傳送門：spring-cloud-sofastack-samples

Kafka 簡介

官方網站：https://kafka.apache.org/

功能提供

Apache Kafka™ 是一個分散式資料流平臺，從官方文件的解釋來看，其職能大體如下：

Publish and subscribe to streams of records, similar to a message queue or enterprise messaging system。釋出和訂閱資料流，與訊息佇列或企業級訊息系統很像。
Store streams of records in a fault-tolerant durable way。具有很強容災性的儲存資料流
Process streams of records as they occur。及時的處理資料流。

作為一個後端司機，大多數情況下都是把 Kafka 作為一個分散式訊息佇列來使用的，分散式訊息佇列可以提供應用解耦、流量消峰、訊息分發等功能，已經是大型網際網路服務架構不可缺少的基礎設定了。

基本概念

topic 和 partition

Kafka 對資料提供的核心抽象，topic 是釋出的資料流的類別或名稱。topic 在 Kafka 中，支援多訂閱者；也就是說，topic 可以有零個、一個或多個消費者訂閱寫到相應 topic 的資料。對應每一個 topic，Kafka 叢集會維護像一個如下這樣的分割槽的日誌：

每個 Partition 都是一個有序的、不可變的並且不斷被附加的記錄序列，也就是一個結構化提交日誌（commit log）。為了保證唯一標性識 Partition 中的每個資料記錄，Partition 中的記錄每個都會被分配一個叫做偏移（offset）順序的ID號。通過一個可配置的保留期，Kafka 叢集會保留所有被髮布的資料，不管它們是不是已經被消費者處理。例如，如果保留期設定為兩天，則在釋出記錄後的兩天內，資料都可以被消費，之後它將被丟棄以釋放空間。 Kafka 的效能是不為因為資料量大小而受影響的，因此長時間儲存資料並不成問題。

事實上，在每個消費者上保留的唯一後設資料是消費者在日誌中的偏移位置，這個偏移由消費者控制：通常消費者會在讀取記錄時線性地提高其偏移值（offset++），但實際上，由於偏移位置由消費者控制，它可以以任何順序來處理資料記錄。例如，消費者可以重置為較舊的偏移量以重新處理來自過去的資料，或者跳過之前的記錄，並從“現在”開始消費。這種特徵的組合意味著 Kafka 消費者非常輕量級，隨意的開啟和關閉並不會對其他的消費者有大的影響。

日誌中的 Partition 有幾個目的：

保證日誌的擴充套件性，topic 的大小不受單個伺服器大小的限制。每個單獨的 Partition 大小必須小於託管它的伺服器磁碟大小，但 topic 可能有很多 Partition，因此它可以處理任意數量的海量資料。
作為並行處理的單位 (知乎-Partition：Kafka可以將主題劃分為多個分割槽（Partition），會根據分割槽規則選擇把訊息儲存到哪個分割槽中，只要如果分割槽規則設定的合理，那麼所有的訊息將會被均勻的分佈到不同的分割槽中，這樣就實現了負載均衡和水平擴充套件。另外，多個訂閱者可以從一個或者多個分割槽中同時消費資料，以支撐海量資料處理能力)

kafka中的topic為什麼要進行分割槽

原貼：kafka中的topic為什麼要進行分割槽，由於不能轉載，此處不摘抄原文~

生產者

生產者將資料釋出到他們選擇的 topic ，生產者負責選擇要吧資料分配給 topic 中哪個 Partition。這可以通過迴圈方式（round-robin）簡單地平衡負載，或者可以根據某些語義進行分割槽（例如基於資料中的某些關鍵字）來完成。

消費者

消費者們使用消費群組(consumer group )名稱來標註自己，幾個消費者共享一個 group，每一個釋出到 topic 的資料會被傳遞到每個消費群組(consumer group )中的一個消費者例項。消費者例項可以在不同的程式中或不同的機器上。

如果所有的消費者例項具有相同的 consumer group，則記錄將在所有的消費者例項上有效地負載平衡

如果所有的消費者例項都有不同的 consumer group，那麼每個記錄將被廣播給所有的消費者程式，每個資料都發到了所有的消費者。

上圖解釋源自《Kafka 官方文件》介紹：

如上圖，一個兩個伺服器節點的Kafka叢集，託管著4個分割槽(P0-P3)，分為兩個消費者群. 消費者群A有2個消費者例項，消費者群B有4個. 然而，更常見的是，我們發現主題具有少量的消費者群，每個消費者群代表一個“邏輯訂戶”。每個組由許多消費者例項組成，保證可擴充套件性和容錯能力。這可以說是“釋出-訂閱”語義，但使用者是一組消費者而不是單個程式。在Kafka中實現消費的方式，是通過將日誌中的分割槽均分到消費者例項上，以便每個例項在任何時間都是“相應大小的一塊”分割槽的唯一消費者。維護消費者組成員資格的過程，由卡夫卡協議動態處理。如果新的例項加入組，他們將從組中的其他成員接管一些分割槽; 如果一個例項消失，其分割槽將被分發到剩餘的例項。 Kafka僅提供單個分割槽內的記錄的順序，而不是主題中的不同分割槽之間的總順序。每個分割槽排序結合按鍵分割槽，足以滿足大多數應用程式的需求。但是，如果您需要使用總順序，則可以通過僅具有一個分割槽的主題來實現，儘管這僅意味著每個消費者組只有一個消費者程式。

Kafka 作為訊息系統

訊息系統傳統上有兩種模式: 佇列和釋出-訂閱。

佇列模式中，消費者池可以從伺服器讀取，每條記錄只會被某一個消費者消費
- 允許在多個消費者例項上分配資料處理，但是一旦資料被消費之後，資料就沒有了
釋出訂閱模式中，記錄將廣播給所有消費者
- 允許將資料廣播到多個程式，但無法縮放和擴容，因為每個訊息都傳送給每個訂閱使用者

本篇只介紹 Kafka 作為訊息佇列的一些基本概念，更多介紹請參考官方文件。

Kafka 安裝

這裡來看下如何安裝 kafka，下載地址：https://kafka.apache.org/downloads。本篇使用的版本是 kafka_2.12-1.1.1。

獲取包檔案

> wget http://mirrors.shu.edu.cn/apache/kafka/1.1.1/kafka_2.12-1.1.1.tgz
複製程式碼

解壓壓縮包

> tar -zxvf kafka_2.12-1.1.1.tgz
複製程式碼

修改配置檔案
```
> cd kafka_2.12-1.1.1/config
> vim server.properties
複製程式碼
```
我這裡主要修改項包括以下幾個：
```
# The id of the broker. This must be set to a unique integer for each broker.
broker.id=0

listeners=PLAINTEXT://192.168.0.1:9092

advertised.listeners=PLAINTEXT://192.168.0.1:9092
# zookeeper 地址，可以多個
zookeeper.connect=192.168.0.6:2181
複製程式碼
```
Kafka 服務啟動需要依賴 Zookeeper ，所以在配置檔案中需要指定 Zookeeper 叢集地址。Kafka 自己的安裝包中解壓之後是包括 Zookeeper 的，可以通過以下的方式來啟動一個單節點 Zookeeper 例項：
```
> sh zookeeper-server-start.sh -daemon config/zookeeper.properties
複製程式碼
```
這裡我是指定了之前部署的一臺ZK機器，所以可以直接將ZK地址指到已部署好的地址。Zookeeper 安裝可以參考： Linux 下安裝 Zookeeper

通過上述操作，下面就可以直接來啟動Kafka 服務了：
```
> sh kafka-server-start.sh config/server.properties
複製程式碼
```

SpringBoot 整合 Kafka

構建一個簡單的 Kafka Producer 工具依賴

依賴引入

<dependency>
	<groupId>org.springframework.kafka</groupId>
	<artifactId>spring-kafka</artifactId>
	<version>1.3.5.RELEASE</version><!--$NO-MVN-MAN-VER$-->
</dependency>
複製程式碼

producer

為了可以把 Kafka 封裝已提供給其他模組使用，大家可以將 Kafka 的生產端工具類使用 SpringBoot 的自動配置機制進行包裝，如下：

@Configuration
public class KafkaProducerAutoConfiguration {
    @Autowired
    private KafkaTemplate<String, String> kafkaTemplate;
    @Bean
    public KafkaSender kafkaSender(){
        return new KafkaSender(kafkaTemplate);
    }
}
複製程式碼

KafkaSender

public class KafkaSender {
    private KafkaTemplate<String, String> kafkaTemplate;
    public KafkaSender(KafkaTemplate<String, String> kafkaTemplate) {
        this.kafkaTemplate = kafkaTemplate;
    }
    /**
     * send message
     */
    public void sendMessage(String topic, String message) {
        kafkaTemplate.send(topic, message);
    }
}
複製程式碼

自動配置

org.springframework.boot.autoconfigure.EnableAutoConfiguration=\
io.sofastack.cloud.core.kafka.configuration.KafkaProducerAutoConfiguration
複製程式碼

工程模組如下： image-20190306151759441.png

案例測試

在測試工程中引入依賴，這個依賴就是上面工程打包來的：

<dependency>
	<groupId>io.sofastack.cloud</groupId>
	<artifactId>sofastack-cloud-core-kafka</artifactId>
</dependency>
複製程式碼

在 resources 目錄下新建 application.properties 配置檔案

#============== kafka ===================
# 指定kafka 代理地址，可以多個,這裡的192.168.0.1是上面Kafka 啟動配置檔案中對應的
# 注：網上一些帖子中說 Kafka 這裡的配置只能是主機名，不支援 ip，沒有驗證過，
# 如果您在驗證時出現問題，可以嘗試本機繫結下 host
spring.kafka.bootstrap-servers= 192.168.0.1:9092
#=============== provider  =======================
spring.kafka.producer.retries=0
# 每次批量傳送訊息的數量
spring.kafka.producer.batch-size=16384
spring.kafka.producer.buffer-memory=33554432
# 指定訊息key和訊息體的編解碼方式
spring.kafka.producer.key-serializer=org.apache.kafka.common.serialization.StringSerializer
spring.kafka.producer.value-serializer=org.apache.kafka.common.serialization.StringSerializer
#=============== consumer  =======================
# 指定預設消費者group id
spring.kafka.consumer.group-id=test-consumer-group
spring.kafka.consumer.auto-offset-reset=earliest
spring.kafka.consumer.enable-auto-commit=true
spring.kafka.consumer.auto-commit-interval=100ms
# 指定訊息key和訊息體的編解碼方式
spring.kafka.consumer.key-deserializer=org.apache.kafka.common.serialization.StringDeserializer
spring.kafka.consumer.value-deserializer=org.apache.kafka.common.serialization.StringDeserializer
spring.application.name=kafka-test
logging.path=./logs
複製程式碼

啟動類中模擬傳送訊息

@SpringBootApplication
@PropertySource("classpath:application-kafka.properties")
public class ProviderApplication {
    public static void main(String[] args) {
        ConfigurableApplicationContext run = SpringApplication.run(ProviderApplication.class, args);
        // 這裡通過容器獲取，正常使用情況下，可以直接使用 Autowired 注入
        KafkaSender bean = run.getBean(KafkaSender.class);
        for (int i = 0; i < 3; i++) {
            //呼叫訊息傳送類中的訊息傳送方法
            bean.sendMessage(KafkaContants.TRADE_TOPIC, "send a test message");
            try {
                Thread.sleep(3000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }
    }
}
複製程式碼

編寫消費者，在 SpringBoot 工程中，消費者實現非常簡單

@Component
public class KafkaReceiver {
    // 配置監聽的主體，groupId 和配置檔案中的保持一致
    @KafkaListener(topics = { KafkaContants.TRADE_TOPIC }, groupId = "test-consumer-group")
    public void listen(ConsumerRecord<?, ?> record) {
        Optional<?> kafkaMessage = Optional.ofNullable(record.value());
        if (kafkaMessage.isPresent()) {
            Object message = kafkaMessage.get();
            System.out.println(message);
        }
    }
}
複製程式碼

啟動工程後，可以在控制檯看下消費者列印的資訊：

這裡保持應用正常執行，再通過服務端來手動傳送訊息，看下是當前消費者能夠正確監聽到對應的 topic 並消費。

> sh kafka-console-producer.sh --broker-list 192.168.0.1:9092 --topic trading
複製程式碼

執行上述命令之後，命令列將會等待輸入，這裡輸入先後輸入 glmapper 和 sofa :

然後再看下應用程式控制臺輸入結果如下： image-20190306153452565.png

參考

Springboot 整合logback 日誌框架簡介
2019-03-04
Spring Boot框架
RabbitMQ簡介以及與SpringBoot整合示例
2019-08-23
MQSpring Boot
SpringBoot整合Kafka和Storm
2018-05-10
Spring BootKafkaORM
springboot整合kafka配置方式
2024-05-24
Spring BootKafka
教你如何搞定springboot整合kafka
2024-05-16
Spring BootKafka
SpringBoot整合kafka全面實戰
2020-10-16
Spring BootKafka
kafka 簡介
2018-05-21
Kafka
Kafka簡介
2022-03-22
Kafka
kafka之一：kafka簡介
2021-06-04
Kafka
SpringBoot整合Kafka的實戰用法大全
2021-12-05
Spring BootKafka
Apache-Kafka簡介
2019-03-23
ApacheKafka
springboot整合整合kafka-生產者監聽器ProducerListener
2020-11-20
Spring BootKafka
SpringBoot極簡整合Shiro
2019-07-12
Spring Boot
介紹SpringBoot 整合 Redis 快取
2020-04-01
Spring BootRedis快取
SpringBoot整合Kafka（生產者和消費者都是SpringBoot服務）
2020-12-02
Spring BootKafka
SpringBoot基礎24_SpringBoot簡介1
2024-03-26
Spring Boot
持續整合 Jenkins 簡介
2019-01-19
Jenkins
最簡單的SpringBoot整合MyBatis教程
2019-03-25
Spring BootMyBatis
事件流處理 (ESP) 與 Kafka 簡介
2023-11-06
事件Kafka
Apache Kafka資料模型概念簡介 - Baeldung
2021-01-05
ApacheKafka模型
React與Redux整合技術簡介
2018-05-17
ReactRedux
spring cloud架構整合-springcloud簡介
2018-07-31
SpringCloud架構GC
springboot整合eureka，服務相互呼叫簡單示例
2020-05-31
Spring Boot
Storm與kafka整合
2018-06-12
ORMKafka
Spring Boot 整合 Kafka
2023-04-11
Spring BootKafka
SpringBoot2.0應用（一）：SpringBoot2.0簡單介紹
2018-09-30
Spring Boot
配置中心之Nacos簡介,使用及Go簡單整合
2021-07-04
Go
SpringBoot(19）---SpringBoot整合Apollo
2020-08-25
Spring Boot
SpringBoot(17）---SpringBoot整合RocketMQ
2019-06-30
Spring BootMQ
SpringBoot(十六)_springboot整合JasperRe
2021-09-09
Spring Boot
SpringBoot整合系列-整合JPA
2021-09-09
Spring Boot
SpringBoot整合MongoDB(實現一個簡單快取)
2020-09-24
Spring BootMongoDB快取
一、kafka 介紹 && kafka-client
2020-06-04
Kafkaclient
Flume 整合 Kafka_flume 到kafka 配置【轉】
2024-04-15
Kafka
SpringBoot 和 Kafka 叢集
2020-01-03
Spring BootKafka
solon 整合 kafka-clients
2024-12-06
Kafkaclient
kafka+flume的整合
2021-09-09
Kafka
Cassandra與Kafka的整合
2020-12-30
Kafka