Flink從Kafka取數WordCount後TableApi寫入ES

Rango_lhl發表於2021-06-20

原文網址 : https://www.cnblogs.com/rango-lhl/p/14906238.html

一、背景說明

需求為從Kafka消費對應主題資料，通過TableApi對資料進行WordCount後，基於DDL寫法將資料寫入ES。

二、程式碼部分

說明：程式碼中關於Kafka及ES的連線部分可以抽象到單獨的工具類使用，這裡只是一個演示的小demo，後續操作均可自行擴充套件，如Kakfa一般處理為json格式資料，引入fastjson等工具使用富函式進行格式處理即可。

package com.flinksql.test;

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;
import org.apache.flink.util.Collector;
import org.apache.kafka.clients.consumer.ConsumerConfig;

import java.util.Properties;
import static org.apache.flink.table.api.Expressions.$;

/**
 * @author: Rango
 * @create: 2021-06-20 10:21
 * @description: 使用FlinkSQL實現從kafka讀取資料計算wordcount並將資料寫入ES
 **/
public class FlinkTableAPI_Test {
    public static void main(String[] args) throws Exception {
        //1.建立環境，測試不設定CK
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment().setParallelism(1);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //2.獲取kafka端資料
        Properties prop = new Properties();
        prop.setProperty(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"hadoop102:9092");
        prop.setProperty(ConsumerConfig.GROUP_ID_CONFIG,"BD");
        DataStreamSource<String> sourceDS = env
                .addSource(new FlinkKafkaConsumer<String>("test", new SimpleStringSchema(), prop));

        //3.使用flatmap轉換資料到javabean，使用flatmap可以實現過濾
        SingleOutputStreamOperator<Tuple2<String, Integer>> flatMapDS = sourceDS
                .flatMap(new FlatMapFunction<String, Tuple2<String, Integer>>() {
            @Override
            public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
                String[] split = value.split(",");
                for (String s : split) {
                    out.collect(new Tuple2<>(s, 1));
                }}
        });

        //4.流資料轉為table
        Table table = tableEnv.fromDataStream(flatMapDS);
        Table table1 = table
                .groupBy($("f0"))
                .select($("f0").as("word"), $("f1").sum().as("num"));
        tableEnv.toRetractStream(table1, Row.class).print();

        //5.DDL方式建立臨時表，寫入datastream資料，為演示需要maxactions設定為1，預設是批量寫入
        tableEnv.executeSql("CREATE TABLE sensor (" +
                "  word STRING," +
                "  num BIGINT," +
                "  PRIMARY KEY (word) NOT ENFORCED" +
                ") WITH (" +
                "  'connector' = 'elasticsearch-7'," +
                "  'hosts' = 'http://localhost:9200'," +
                "  'index' = 'test'," +
                "  'sink.bulk-flush.max-actions' = '1')");
        //6.資料寫入
        table1.executeInsert("sensor");
        env.execute();
    }
}

學習交流，有任何問題還請隨時評論指出交流。

Flink 入門篇之寫個WordCount
2020-04-05
《從0到1學習Flink》—— Flink 讀取 Kafka 資料批量寫入到 MySQL
2019-02-24
KafkaMySql
Flink 1.9 實戰：使用 SQL 讀取 Kafka 並寫入 MySQL
2019-09-06
KafkaMySql
Flink 實踐教程 - 入門（4）：讀取 MySQL 資料寫入到 ES
2021-11-09
MySql
利用flink從kafka接收訊息，統計結果寫入mysql，訊息寫入hive
2020-12-31
KafkaMySqlHive
Apache-Flink深度解析-TableAPI
2019-03-21
ApacheAPI
17-Flink消費Kafka寫入Mysql
2019-03-07
KafkaMySql
FlinkSQL寫入Kafka/ES/MySQL示例-JAVA
2021-06-18
KafkaMySqlJava
用 logstash 從 kafka 讀取資料寫入 Elasticsearch（qbit）
2022-02-03
KafkaElasticsearch
第02講：Flink 入門程式 WordCount 和 SQL 實現
2022-01-22
SQL
Logstash讀取Kafka資料寫入HDFS詳解
2019-03-20
Kafka
Spark-stream基礎---sparkStreaming和Kafka整合wordCount單詞計數
2019-04-12
SparkKafka
Flink 實踐教程-入門（6）：讀取 PG 資料寫入 ClickHouse
2021-11-14
Flink-Kafka-Connector Flink結合Kafka實戰
2019-03-03
Kafka
02.Flink的單機wordcount、叢集安裝
2020-09-03
實時數倉之Flink消費kafka訊息佇列資料入hbase
2024-03-26
Kafka佇列
ES寫入效能優化
2019-02-25
優化
dataWarehouseOss專案總結（二）_讀取日誌資訊寫入kafka
2020-09-28
Kafka
Kafka從入門到放棄(一) —— 初識Kafka
2021-12-02
Kafka
State Processor API：如何讀取，寫入和修改 Flink 應用程式的狀態
2019-12-24
API
kafka從入門到關門
2020-10-31
Kafka
Flink從入門到精通系列文章
2019-03-10
訊息推送平臺的實時數倉？！flink消費kafka訊息入到hive
2023-05-10
KafkaHive
Spark 如何寫入HBase/Redis/MySQL/Kafka
2021-09-09
SparkRedisMySqlKafka
Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic
2018-12-08
MySqlKafka
Storm的wordcount程式碼編寫與分析
2018-10-10
ORM
flink連線消費kafka
2019-01-25
Kafka
《Flink SQL任務自動生成與提交》後續：修改flink原始碼實現kafka connector BatchMode
2022-01-12
SQL原始碼KafkaBAT
Flink從入門到放棄-大綱
2019-02-24
go kafka 單機寫入 50w
2018-11-04
GoKafka
WordCount
2018-09-23
使用 ES-Hadoop 將 Spark Streaming 流資料寫入 ES
2019-01-05
HadoopSpark
Flink Kafka Connector與Exactly Once剖析
2019-09-18
Kafka
Flink kafka source & sink 原始碼解析
2020-04-03
Kafka原始碼
Kafka+Flink，Confluent收購Immerok
2023-01-09
Kafka
flume自定義 ES SINk外掛，AVRO格式資料寫入ES
2018-06-01
VR
flink實戰--讀寫Hive（Flink on Hive）
2019-08-28
Hive
Flink的sink實戰之二：kafka
2021-09-09
Kafka

Flink從Kafka取數WordCount後TableApi寫入ES

一、背景說明

二、程式碼部分

相關文章