將CSV的資料傳送到kafka(java版)

程式設計師欣宸發表於2020-11-16

原文網址 : https://www.cnblogs.com/bolingcavalry/p/13983379.html

KafkaJava

歡迎訪問我的GitHub

https://github.com/zq2599/blog_demos

內容：所有原創文章分類彙總及配套原始碼，涉及Java、Docker、Kubernetes、DevOPS等；

為什麼將CSV的資料發到kafka

flink做流式計算時，選用kafka訊息作為資料來源是常用手段，因此在學習和開發flink過程中，也會將資料集檔案中的記錄傳送到kafka，來模擬不間斷資料；
整個流程如下：
您可能會覺得這樣做多此一舉：flink直接讀取CSV不就行了嗎？這樣做的原因如下：
首先，這是學習和開發時的做法，資料集是CSV檔案，而生產環境的實時資料卻是kafka資料來源；
其次，Java應用中可以加入一些特殊邏輯，例如資料處理，彙總統計（用來和flink結果對比驗證）；
另外，如果兩條記錄實際的間隔時間如果是1分鐘，那麼Java應用在傳送訊息時也可以間隔一分鐘再傳送，這個邏輯在flink社群的demo中有具體的實現，此demo也是將資料集傳送到kafka，再由flink消費kafka，地址是：https://github.com/ververica/sql-training

如何將CSV的資料傳送到kafka

前面的圖可以看出，讀取CSV再傳送訊息到kafka的操作是Java應用所為，因此今天的主要工作就是開發這個Java應用，並驗證；

版本資訊

JDK：1.8.0_181
開發工具：IntelliJ IDEA 2019.2.1 (Ultimate Edition)
開發環境：Win10
Zookeeper：3.4.13
Kafka：2.4.0（scala：2.12）

關於資料集

本次實戰用到的資料集是CSV檔案，裡面是一百零四萬條淘寶使用者行為資料，該資料來源是阿里雲天池公開資料集，我對此資料做了少量調整；
此CSV檔案可以在CSDN下載，地址：https://download.csdn.net/download/boling_cavalry/12381698
也可以在我的Github下載，地址：https://raw.githubusercontent.com/zq2599/blog_demos/master/files/UserBehavior.7z
該CSV檔案的內容，一共有六列，每列的含義如下表：

列名稱	說明
使用者ID	整數型別，序列化後的使用者ID
商品ID	整數型別，序列化後的商品ID
商品類目ID	整數型別，序列化後的商品所屬類目ID
行為型別	字串，列舉型別，包括('pv', 'buy', 'cart', 'fav')
時間戳	行為發生的時間戳
時間字串	根據時間戳欄位生成的時間字串

關於該資料集的詳情，請參考《準備資料集用於flink學習》

Java應用簡介

編碼前，先把具體內容列出來，然後再挨個實現：

從CSV讀取記錄的工具類：UserBehaviorCsvFileReader
每條記錄對應的Bean類：UserBehavior
Java物件序列化成JSON的序列化類：JsonSerializer
向kafka傳送訊息的工具類：KafkaProducer
應用類，程式入口：SendMessageApplication

上述五個類即可完成Java應用的工作，接下來開始編碼吧；

直接下載原始碼

如果您不想寫程式碼，您可以直接從GitHub下載這個工程的原始碼，地址和連結資訊如下表所示：

名稱	連結	備註
專案主頁	https://github.com/zq2599/blog_demos	該專案在GitHub上的主頁
git倉庫地址(https)	https://github.com/zq2599/blog_demos.git	該專案原始碼的倉庫地址，https協議
git倉庫地址(ssh)	git@github.com:zq2599/blog_demos.git	該專案原始碼的倉庫地址，ssh協議

這個git專案中有多個資料夾，本章原始碼在flinksql這個資料夾下，如下圖紅框所示：

編碼

建立maven工程，pom.xml如下，比較重要的jackson和javacsv的依賴：

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>com.bolingcavalry</groupId>
    <artifactId>flinksql</artifactId>
    <version>1.0-SNAPSHOT</version>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <flink.version>1.10.0</flink.version>
        <kafka.version>2.2.0</kafka.version>
        <java.version>1.8</java.version>
        <scala.binary.version>2.11</scala.binary.version>
        <maven.compiler.source>${java.version}</maven.compiler.source>
        <maven.compiler.target>${java.version}</maven.compiler.target>
    </properties>

    <dependencies>
        <dependency>
            <groupId>org.apache.kafka</groupId>
            <artifactId>kafka-clients</artifactId>
            <version>${kafka.version}</version>
        </dependency>

        <dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-databind</artifactId>
            <version>2.9.10.1</version>
        </dependency>

        <!-- Logging dependencies -->
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.7</version>
            <scope>runtime</scope>
        </dependency>
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>1.2.17</version>
            <scope>runtime</scope>
        </dependency>
        <dependency>
            <groupId>net.sourceforge.javacsv</groupId>
            <artifactId>javacsv</artifactId>
            <version>2.0</version>
        </dependency>

    </dependencies>

    <build>
        <plugins>
            <!-- Java Compiler -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.1</version>
                <configuration>
                    <source>${java.version}</source>
                    <target>${java.version}</target>
                </configuration>
            </plugin>

            <!-- Shade plugin to include all dependencies -->
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>3.0.0</version>
                <executions>
                    <!-- Run shade goal on package phase -->
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <artifactSet>
                                <excludes>
                                </excludes>
                            </artifactSet>
                            <filters>
                                <filter>
                                    <!-- Do not copy the signatures in the META-INF folder.
                                    Otherwise, this might cause SecurityExceptions when using the JAR. -->
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

從CSV讀取記錄的工具類：UserBehaviorCsvFileReader，後面在主程式中會用到java8的Steam API來處理集合，所以UserBehaviorCsvFileReader實現了Supplier介面：

public class UserBehaviorCsvFileReader implements Supplier<UserBehavior> {

    private final String filePath;
    private CsvReader csvReader;

    public UserBehaviorCsvFileReader(String filePath) throws IOException {

        this.filePath = filePath;
        try {
            csvReader = new CsvReader(filePath);
            csvReader.readHeaders();
        } catch (IOException e) {
            throw new IOException("Error reading TaxiRecords from file: " + filePath, e);
        }
    }

    @Override
    public UserBehavior get() {
        UserBehavior userBehavior = null;
        try{
            if(csvReader.readRecord()) {
                csvReader.getRawRecord();
                userBehavior = new UserBehavior(
                        Long.valueOf(csvReader.get(0)),
                        Long.valueOf(csvReader.get(1)),
                        Long.valueOf(csvReader.get(2)),
                        csvReader.get(3),
                        new Date(Long.valueOf(csvReader.get(4))*1000L));
            }
        } catch (IOException e) {
            throw new NoSuchElementException("IOException from " + filePath);
        }

        if (null==userBehavior) {
            throw new NoSuchElementException("All records read from " + filePath);
        }

        return userBehavior;
    }
}

每條記錄對應的Bean類：UserBehavior，和CSV記錄格式保持一致即可，表示時間的ts欄位，使用了JsonFormat註解，在序列化的時候以此來控制格式：

public class UserBehavior {

    @JsonFormat
    private long user_id;

    @JsonFormat
    private long item_id;

    @JsonFormat
    private long category_id;

    @JsonFormat
    private String behavior;

    @JsonFormat(shape = JsonFormat.Shape.STRING, pattern = "yyyy-MM-dd'T'HH:mm:ss'Z'")
    private Date ts;

    public UserBehavior() {
    }

    public UserBehavior(long user_id, long item_id, long category_id, String behavior, Date ts) {
        this.user_id = user_id;
        this.item_id = item_id;
        this.category_id = category_id;
        this.behavior = behavior;
        this.ts = ts;
    }
}

Java物件序列化成JSON的序列化類：JsonSerializer

public class JsonSerializer<T> {

    private final ObjectMapper jsonMapper = new ObjectMapper();

    public String toJSONString(T r) {
        try {
            return jsonMapper.writeValueAsString(r);
        } catch (JsonProcessingException e) {
            throw new IllegalArgumentException("Could not serialize record: " + r, e);
        }
    }

    public byte[] toJSONBytes(T r) {
        try {
            return jsonMapper.writeValueAsBytes(r);
        } catch (JsonProcessingException e) {
            throw new IllegalArgumentException("Could not serialize record: " + r, e);
        }
    }
}

向kafka傳送訊息的工具類：KafkaProducer：

public class KafkaProducer implements Consumer<UserBehavior> {

    private final String topic;
    private final org.apache.kafka.clients.producer.KafkaProducer<byte[], byte[]> producer;
    private final JsonSerializer<UserBehavior> serializer;

    public KafkaProducer(String kafkaTopic, String kafkaBrokers) {
        this.topic = kafkaTopic;
        this.producer = new org.apache.kafka.clients.producer.KafkaProducer<>(createKafkaProperties(kafkaBrokers));
        this.serializer = new JsonSerializer<>();
    }

    @Override
    public void accept(UserBehavior record) {
        // 將物件序列化成byte陣列
        byte[] data = serializer.toJSONBytes(record);
        // 封裝
        ProducerRecord<byte[], byte[]> kafkaRecord = new ProducerRecord<>(topic, data);
        // 傳送
        producer.send(kafkaRecord);

        // 通過sleep控制訊息的速度，請依據自身kafka配置以及flink伺服器配置來調整
        try {
            Thread.sleep(500);
        }catch(InterruptedException e){
            e.printStackTrace();
        }
    }

    /**
     * kafka配置
     * @param brokers The brokers to connect to.
     * @return A Kafka producer configuration.
     */
    private static Properties createKafkaProperties(String brokers) {
        Properties kafkaProps = new Properties();
        kafkaProps.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, brokers);
        kafkaProps.put(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName());
        kafkaProps.put(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, ByteArraySerializer.class.getCanonicalName());
        return kafkaProps;
    }
}

最後是應用類SendMessageApplication，CSV檔案路徑、kafka的topic和borker地址都在此設定，另外借助java8的Stream API，只需少量程式碼即可完成所有工作：

public class SendMessageApplication {

    public static void main(String[] args) throws Exception {
        // 檔案地址
        String filePath = "D:\\temp\\202005\\02\\UserBehavior.csv";
        // kafka topic
        String topic = "user_behavior";
        // kafka borker地址
        String broker = "192.168.50.43:9092";

        Stream.generate(new UserBehaviorCsvFileReader(filePath))
                .sequential()
                .forEachOrdered(new KafkaProducer(topic, broker));
    }
}

驗證

請確保kafka已經就緒，並且名為user_behavior的topic已經建立；
請將CSV檔案準備好；
確認SendMessageApplication.java中的檔案地址、kafka topic、kafka broker三個引數準確無誤；
執行SendMessageApplication.java；
開啟一個控制檯訊息kafka訊息，參考命令如下：

./kafka-console-consumer.sh \
--bootstrap-server 127.0.0.1:9092 \
--topic user_behavior \
--consumer-property group.id=old-consumer-test \
--consumer-property consumer.id=old-consumer-cl \
--from-beginning

正常情況下可以立即見到訊息，如下圖：

至此，通過Java應用模擬使用者行為訊息流的操作就完成了，接下來的flink實戰就用這個作為資料來源；

歡迎關注公眾號：程式設計師欣宸

微信搜尋「程式設計師欣宸」，我是欣宸，期待與您一同暢遊Java世界...
https://github.com/zq2599/blog_demos

filebeat將日誌傳送到kafka不同分割槽的方法
2020-12-03
Kafka
Canal1.1.4獲取資料後直接傳送到kafka的Topic中
2020-11-10
Kafka
[譯]Flask教程–將表單資料傳送到模板
2019-02-16
Flask
使用 Win32 API 將原始資料傳送到印表機
2020-11-19
Win32API
利用華為DTM將事件傳送到Firebase
2021-07-26
事件
如何用idea將專案傳送到git
2020-11-25
IdeaGit
Clickhouse Engine kafka 將kafka資料同步clickhouse
2020-12-03
Kafka
如何使用DTM將App事件傳送到Google Analytics
2022-03-15
APP事件Go
使用spring.cloud.stream來傳送kafka訊息，並根據某欄位將訊息傳送到固定partition上
2024-05-10
SpringCloudKafka
如何將kafka中的資料快速匯入Hadoop？
2018-10-18
KafkaHadoop
Flume將 kafka 中的資料轉存到 HDFS 中
2018-12-19
Kafka
運營人員如何快速地將事件傳送到Google Analytics？
2021-05-08
事件Go
使用 Postgres、Debezium 和 Kafka 流式傳輸資料
2022-06-23
Kafka
讀取CSV資料
2020-10-12
高效資料傳輸：Java透過繫結快速將資料匯出至Excel
2023-10-09
JavaExcel
一次將資料匯出為 CSV 格式檔案時遇到的坑
2020-04-17
將本地nuget包推送到Nexus
2024-11-08
如何從MySQL中將變化的事件資料釋出到Kafka?
2018-11-26
MySql事件Kafka
傳說中的資料結構_JAVA
2020-10-01
資料結構Java
MySQL匯出資料為csv的方法
2020-12-15
MySql
kafka connect，將資料批量寫到hdfs完整過程
2018-03-23
Kafka
win10傳送到桌面快捷方式的方法_win10系統怎麼傳送到桌面快捷方式
2020-07-30
Win10
匯出資料為csv格式
2018-10-11
PHP匯入大量CSV資料
2022-02-17
PHP
把Oracle的命令輸出傳送到檔案的命令
2018-09-18
Oracle
Marketing Cloud contact主資料的csv匯入
2019-06-22
Cloud
MySQL 匯出資料為csv格式的方法
2021-09-09
MySql
如何將傳統關聯式資料庫的資料匯入Hadoop？
2018-10-12
資料庫Hadoop
kafka資料地址
2018-08-15
Kafka
Hadoop資料傳輸：如何將資料移入和移出Hadoop？
2018-10-08
Hadoop
資料傳輸 | 利用 DTLE 將 MySQL 資料同步到 DBLE
2022-03-29
MySql
csv跨域傳輸再生成csv檔案處理
2020-10-25
跨域
Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran
2020-12-09
ApacheKafka資料庫
怎麼可以將活動訊息一鍵傳送到企業全部客戶群
2022-06-07
Java版-資料結構-棧
2019-03-12
Java資料結構
用python字典統計CSV資料
2024-05-28
Python
經GitHub將kubernetes映象推送到阿里雲
2022-11-24
Github阿里
Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic
2018-12-08
MySqlKafka

將CSV的資料傳送到kafka(java版)

歡迎訪問我的GitHub

為什麼將CSV的資料發到kafka

如何將CSV的資料傳送到kafka

版本資訊

關於資料集

Java應用簡介

直接下載原始碼

編碼

驗證

歡迎關注公眾號：程式設計師欣宸

相關文章