Kafka資料每5分鐘同步到Hive

哥不是小蘿莉發表於2020-12-26

原文網址 : https://www.cnblogs.com/smartloli/p/14193432.html

KafkaHive

1.概述

最近有同學留言諮詢Kafka資料落地到Hive的一些問題，今天筆者將為大家來介紹一種除Flink流批一體以外的方式（流批一體下次再單獨寫一篇給大家分享）。

2.內容

首先，我們簡單來描述一下資料場景，比如有這樣一個資料場景，有一批實時流資料實時寫入Kafka，然後需要對Topic中的資料進行每隔5分鐘進行落地到Hive，進行每5分鐘分割槽儲存。流程圖如下所示：

2.1 環境依賴

整個流程，需要依賴的元件有Kafka、Flink、Hadoop。由於Flink提交需要依賴Hadoop的計算資源和儲存資源，所以Hadoop的YARN和HDFS均需要啟動。各個元件版本如下：

元件	版本
Kafka	2.4.0
Flink	1.10.0
Hadoop	2.10.0

2.2 每分鐘落地HDFS實現

Flink消費Kafka叢集中的資料，需要依賴Flink包，依賴如下：

<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-filesystem_2.12</artifactId>
    <version>${flink.connector.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-connector-kafka-0.11_2.12</artifactId>
    <version>${flink.kafka.version}</version>
 </dependency>
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-streaming-java_2.12</artifactId>
    <version>${flink.streaming.version}</version>
 </dependency>

編寫消費Topic的Flink程式碼，這裡不對Topic中的資料做邏輯處理，在後面統一交給MapReduce來做資料預處理，直接消費並儲存到HDFS上。程式碼如下：

public class Kafka2Hdfs {

    private static Logger LOG = LoggerFactory.getLogger(Kafka2Hdfs.class);

    public static void main(String[] args) {
        if (args.length != 3) {
            LOG.error("kafka(server01:9092), hdfs(hdfs://cluster01/data/), flink(parallelism=2) must be exist.");
            return;
        }
        String bootStrapServer = args[0];
        String hdfsPath = args[1];
        int parallelism = Integer.parseInt(args[2]);

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(5000);
        env.setParallelism(parallelism);
        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);

        DataStream<String> transction = env.addSource(new FlinkKafkaConsumer010<>("test_bll_data", new SimpleStringSchema(), configByKafkaServer(bootStrapServer)));

        // Storage into hdfs
        BucketingSink<String> sink = new BucketingSink<>(hdfsPath);

        sink.setBucketer(new JDateTimeBucketer<String>("HH-mm"));// 自定義儲存到HDFS上的檔名，用小時和分鐘來命名，方便後面算策略

        sink.setBatchSize(1024 * 1024 * 4); // this is 5MB
        sink.setBatchRolloverInterval(1000 * 30); // 30s producer a file into hdfs
        transction.addSink(sink);

        env.execute("Kafka2Hdfs");
    }

    private static Object configByKafkaServer(String bootStrapServer) {
        Properties props = new Properties();
        props.setProperty("bootstrap.servers", bootStrapServer);
        props.setProperty("group.id", "test_bll_group");
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        return props;
    }

}

2.3 注意事項

這裡我們把時間視窗設定小一些，每30s做一次檢查，如果該批次的時間視窗沒有資料過來，就生成一個檔案落地到HDFS上；
另外，我們重寫了DateTimeBucketer為JDateTimeBucketer，邏輯並不複雜，在原有的方法上加一個年-月-日/時-分的檔案生成路徑，例如在HDFS上的生成路徑：xxxx/2020-12-26/00-00

2.4 資料預處理

這裡，我們需要對落地到HDFS上的檔案進行預處理，處理的邏輯是這樣的。比如，現在是2020-12-26 14:00，那麼我們需要將當天的13:55，13:56，13:57，13:58，13:59這最近5分鐘的資料處理到一起，並載入到Hive的最近5分鐘的一個分割槽裡面去。那麼，我們需要生成這樣一個邏輯策略集合，用HH-mm作為key，與之最近的5個檔案作為value，進行資料預處理合並。

實現程式碼如下：

public class DateRange {

    public static void main(String[] args) {
        for (int i = 0; i < 24; i++) {
            for (int j = 0; j < 60; j++) {
                if (j % 5 == 0) {
                    if (j < 10) {
                        if (i < 10) {
                            if (i == 0 && j == 0) {
                                System.out.println("0" + i + "-0" + j + "=>23-59,23-58,23-57,23-56,23-55");
                            } else {
                                if (j == 0) {
                                    String tmp = "";
                                    for (int k = 1; k <= 5; k++) {
                                        tmp += "0" + (i - 1) + "-" + (60 - k) + ",";
                                    }
                                    System.out.println("0" + i + "-0" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                                } else {
                                    String tmp = "";
                                    for (int k = 1; k <= 5; k++) {
                                        if (j - k < 10) {
                                            tmp += "0" + i + "-0" + (j - k) + ",";
                                        } else {
                                            tmp += "0" + i + "-" + (j - k) + ",";
                                        }
                                    }
                                    System.out.println("0" + i + "-0" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                                }
                            }
                        } else {
                            if (j == 0) {
                                String tmp = "";
                                for (int k = 1; k <= 5; k++) {
                                    if (i - 1 < 10) {
                                        tmp += "0" + (i - 1) + "-" + (60 - k) + ",";
                                    } else {
                                        tmp += (i - 1) + "-" + (60 - k) + ",";
                                    }
                                }
                                System.out.println(i + "-0" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                            } else {
                                String tmp = "";
                                for (int k = 1; k <= 5; k++) {
                                    if (j - k < 10) {
                                        tmp += i + "-0" + (j - k) + ",";
                                    } else {
                                        tmp += i + "-" + (j - k) + ",";
                                    }
                                }
                                System.out.println(i + "-0" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                            }
                        }
                    } else {
                        if (i < 10) {
                            String tmp = "";
                            for (int k = 1; k <= 5; k++) {
                                if (j - k < 10) {
                                    tmp += "0" + i + "-0" + (j - k) + ",";
                                } else {
                                    tmp += "0" + i + "-" + (j - k) + ",";
                                }
                            }
                            System.out.println("0" + i + "-" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                        } else {
                            String tmp = "";
                            for (int k = 1; k <= 5; k++) {
                                if (j - 1 < 10) {
                                    tmp += i + "-0" + (j - k) + ",";
                                } else {
                                    tmp += i + "-" + (j - k) + ",";
                                }
                            }
                            System.out.println(i + "-" + j + "=>" + tmp.substring(0, tmp.length() - 1));
                        }
                    }
                }
            }
        }
    }

}

預覽結果如下：

需要注意的是，如果發生了第二天00:00，那麼我們需要用到前一天的00-00=>23-59,23-58,23-57,23-56,23-55這5個檔案中的資料來做預處理。

2.5 資料載入

準備好資料後，我們可以使用Hive的load命令直接載入HDFS上預處理的檔案，把資料載入到對應的表中，實現命令如下：

load data inpath '/cluster01/hive/hfile/data/min/2020-12-26/14-05/' overwrite into table jketable partition(day='2020-12-26-14-05')

這裡，我們在執行命令時，可能檔案不存在會導致載入出錯。那我們在載入HDFS路徑之前，先判斷一下路徑是否存在。

實現指令碼如下所示：

hdfs dfs -ls /cluster01/hive/hfile/data/min/2020-12-26/14-05/ | wc -l > /tmp/hdfs_check_files.txt

hdfs_check_files=`cat /tmp/hdfs_check_files.txt`

# 判斷HDFS上檔案是否存在
if [ $hdfs_check_files -eq 0 ]
then
    echo "Match file is null.Stop hive load script."
else
    echo "Match file is exist.Start hive load script."
    hive -e "load data inpath '/cluster01/hive/hfile/data/min/2020-12-26/14-05/' overwrite into table jketable partition(day='2020-12-26-14-05')"
fi

3.總結

整個流程為，先使用Flink消費儲存在Kafka中的資料，按照每分鐘進行儲存，然後將具體需要聚合的時間段進行策略生成，比如每5分鐘、10分鐘、15分鐘等等，可以在DateRange類中修改對應的策略邏輯。最後，再將預處理好的資料使用hive命令進行載入。整個過程，流程較多。如果我們使用Flink的流批一體特性，可以通過Flink直接建表，然後使用Flink消費Kafka中的資料後，直接分割槽落地到Hive表，這個就留到下次再給大家分享吧。

4.結束語

這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

另外，博主出書了《Kafka並不難學》和《Hadoop大資料探勘從入門到進階實戰》，喜歡的朋友或同學，可以在公告欄那裡點選購買連結購買博主的書進行學習，在此感謝大家的支援。關注下面公眾號，根據提示，可免費獲取書籍的教學視訊。

PostgreSQL邏輯複製資料同步到kafka
2022-03-31
SQLKafka
Clickhouse Engine kafka 將kafka資料同步clickhouse
2020-12-03
Kafka
Hbase、Hive、Impala資料同步簡單示例
2018-08-20
Hive
oracle 資料透過goldengate 實時同步到kafka訊息佇列中
2020-03-28
OracleGoKafka佇列
如何將本地資料同步到 shopify 或 shopify 資料同步到本地
2021-03-16
Kafka 叢集如何實現資料同步？
2023-11-16
Kafka
Kafka Connect如何實現同步RDS binlog資料?
2018-05-15
Kafka
SQL資料同步到ElasticSearch（三）- 使用Logstash+LastModifyTime同步資料
2019-07-26
SQLElasticsearch
Sqoop將MySQL資料匯入到hive中
2019-01-30
OOPMySqlHive
從入門到放棄之大資料Hive
2019-05-12
大資料Hive
【Hive】hive資料遷移
2018-08-21
Hive
資料同步：教你如何實時把資料從 MySQL 同步到 OceanBase
2021-11-17
MySql
永續性Akka、Kafka、Cassandra實現CQRS資料同步
2018-06-29
Kafka
canal+mysql+kafka實時資料同步安裝、配置
2021-06-18
MySqlKafka
RestCloud ETL WebService資料同步到本地
2022-06-27
RESTCloudWeb
DataX將MySql資料庫資料同步到Oracle資料庫
2024-05-16
MySql資料庫Oracle
hive從入門到放棄(三)——DML資料操作
2022-03-20
Hive
DataX將Oracle資料庫資料同步到達夢資料庫
2024-05-17
Oracle資料庫
mysqldump同步生產到生產資料
2020-03-23
MySql
MySQL 到Oracle 實時資料同步HYXS
2022-03-01
MySqlOracle
資料傳輸 | 利用 DTLE 將 MySQL 資料同步到 DBLE
2022-03-29
MySql
[hive]hive資料模型中四種表
2018-08-14
Hive模型
大資料4.2 -- hive資料庫
2018-04-03
大資料Hive資料庫
Flink同步Kafka資料到ClickHouse分散式表
2022-12-21
Kafka分散式
聊聊如何將資料同步到apollo配置中心
2022-02-22
用 gpss 從 kafka 消費資料載入到 greenplum
2020-02-26
Kafka
kafka connect，將資料批量寫到hdfs完整過程
2018-03-23
Kafka
【大資料開發】Hive——Hive函式大全
2020-11-06
大資料Hive函式
使用canal增量同步mysql資料庫資訊到ElasticSearch
2019-06-22
MySql資料庫Elasticsearch
kafka資料地址
2018-08-15
Kafka
ETL資料整合丨SQLServer到Doris的無縫資料同步策略
2024-09-02
SQLServer
Apache Kafka不是資料庫：資料庫+Kafka=完整ACID - fivetran
2020-12-09
ApacheKafka資料庫
【HIVE】hive 使用shell指令碼跑歷史資料
2020-12-31
Hive指令碼
使用 EasyWechat 同步微信粉絲到資料庫
2018-05-24
資料庫
flnkcdc+datastream實現mysql到mysql資料同步
2024-03-10
ASTMySql
高效整合：聚水潭採購資料同步到MySQL
2024-11-08
MySql
Hive資料格式轉換
2019-01-08
Hive
spark寫入hive資料
2019-04-09
SparkHive