Elasticsearch 與 Kafka 整合剖析

哥不是小蘿莉發表於2017-06-10

1.概述

　　目前，隨著大資料的浪潮，Kafka 被越來越多的企業所認可，如今的Kafka已發展到0.10.x，其優秀的特性也帶給我們解決實際業務的方案。對於資料分流來說，既可以分流到離線儲存平臺（HDFS），離線計算平臺（Hive倉庫），也可以分流實時流水計算（Storm，Spark）等，同樣也可以分流到海量資料查詢（HBase），或是及時查詢（ElasticSearch）。而今天筆者給大家分享的就是Kafka 分流資料到 ElasticSearch。

2.內容

　　我們知道，ElasticSearch是有其自己的套件的，簡稱ELK，即ElasticSearch，Logstash以及Kibana。ElasticSearch負責儲存，Logstash負責收集資料來源，Kibana負責視覺化資料，分工明確。想要分流Kafka中的訊息資料，可以使用Logstash的外掛直接消費，但是需要我們編寫複雜的過濾條件，和特殊的對映處理，比如系統保留的`_uid`欄位等需要我們額外的轉化。今天我們使用另外一種方式來處理資料，使用Kafka的消費API和ES的儲存API來處理分流資料。通過編寫Kafka消費者，消費對應的業務資料，將消費的資料通過ES儲存API，通過建立對應的索引的，儲存到ES中。其流程如下圖所示：

　　上圖可知，消費收集的資料，通過ES提供的儲存介面進行儲存。儲存的資料，這裡我們可以規劃，做定時排程。最後，我們可以通過Kibana來視覺化ES中的資料，對外提供業務呼叫介面，進行資料共享。

3.實現

　　下面，我們開始進行實現細節處理，這裡給大家提供實現的核心程式碼部分，實現程式碼如下所示：

3.1 定義ES格式

　　我們以外掛的形式進行消費，從Kafka到ES的資料流向，只需要定義外掛格式，如下所示：

{
    "job": {
        "content": {
            "reader": {
                "name": "kafka",
                "parameter": {
                    "topic": "kafka_es_client_error",
                    "groupid": "es2",
                    "bootstrapServers": "k1:9094,k2:9094,k3:9094"
                },
                "threads": 6
            },
            "writer": {
                "name": "es",
                "parameter": {
                    "host": [
                        "es1:9300,es2:9300,es3:9300"
                    ],
                    "index": "client_error_%s",
                    "type": "client_error"
                }
            }
        }
    }
}

　　這裡處理消費儲存的方式，將讀和寫的源分開，配置各自屬性即可。

3.2 資料儲存

　　這裡，我們通過每天建立索引進行儲存，便於業務查詢，實現細節如下所示：

public class EsProducer {

    private final static Logger LOG = LoggerFactory.getLogger(EsProducer.class);
    private final KafkaConsumer<String, String> consumer;
    private ExecutorService executorService;
    private Configuration conf = null;
    private static int counter = 0;

    public EsProducer() {
        String root = System.getProperty("user.dir") + "/conf/";
        String path = SystemConfigUtils.getProperty("kafka.x.plugins.exec.path");
        conf = Configuration.from(new File(root + path));
        Properties props = new Properties();
        props.put("bootstrap.servers", conf.getString("job.content.reader.parameter.bootstrapServers"));
        props.put("group.id", conf.getString("job.content.reader.parameter.groupid"));
        props.put("enable.auto.commit", "true");
        props.put("auto.commit.interval.ms", "1000");
        props.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        props.put("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
        consumer = new KafkaConsumer<String, String>(props);
        consumer.subscribe(Arrays.asList(conf.getString("job.content.reader.parameter.topic")));
    }

    public void execute() {
        executorService = Executors.newFixedThreadPool(conf.getInt("job.content.reader.threads"));
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            if (null != records) {
                executorService.submit(new KafkaConsumerThread(records, consumer));
            }
        }
    }

    public void shutdown() {
        try {
            if (consumer != null) {
                consumer.close();
            }
            if (executorService != null) {
                executorService.shutdown();
            }
            if (!executorService.awaitTermination(10, TimeUnit.SECONDS)) {
                LOG.error("Shutdown kafka consumer thread timeout.");
            }
        } catch (InterruptedException ignored) {
            Thread.currentThread().interrupt();
        }
    }

    class KafkaConsumerThread implements Runnable {

        private ConsumerRecords<String, String> records;

        public KafkaConsumerThread(ConsumerRecords<String, String> records, KafkaConsumer<String, String> consumer) {
            this.records = records;
        }

        @Override
        public void run() {
            String index = conf.getString("job.content.writer.parameter.index");
            String type = conf.getString("job.content.writer.parameter.type");
            for (TopicPartition partition : records.partitions()) {
                List<ConsumerRecord<String, String>> partitionRecords = records.records(partition);
                for (ConsumerRecord<String, String> record : partitionRecords) {
                    JSONObject json = JSON.parseObject(record.value());
                    List<Map<String, Object>> list = new ArrayList<>();
                    Map<String, Object> map = new HashMap<>();
                    index = String.format(index, CalendarUtils.timeSpan2EsDay(json.getLongValue("_tm") * 1000L));
                    
                    if (counter < 10) {
                        LOG.info("Index : " + index);
                        counter++;
                    }
                    
                    for (String key : json.keySet()) {
                        if ("_uid".equals(key)) {
                            map.put("uid", json.get(key));
                        } else {
                            map.put(key, json.get(key));
                        }
                        list.add(map);
                    }
                    
                    EsUtils.write2Es(index, type, list);
                }
            }
        }

    }

}

　　這裡消費的資料來源就處理好了，接下來，開始ES的儲存，實現程式碼如下所示：

public class EsUtils {

	private static TransportClient client = null;

	static {
		if (client == null) {
			client = new PreBuiltTransportClient(Settings.EMPTY);
		}
		String root = System.getProperty("user.dir") + "/conf/";
		String path = SystemConfigUtils.getProperty("kafka.x.plugins.exec.path");
		Configuration conf = Configuration.from(new File(root + path));
		List<Object> hosts = conf.getList("job.content.writer.parameter.host");
		for (Object object : hosts) {
			try {
				client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(object.toString().split(":")[0]), Integer.parseInt(object.toString().split(":")[1])));
			} catch (Exception e) {
				e.printStackTrace();
			}
		}
	}

	public static void write2Es(String index, String type, List<Map<String, Object>> dataSets) {

		BulkRequestBuilder bulkRequest = client.prepareBulk();
		for (Map<String, Object> dataSet : dataSets) {
			bulkRequest.add(client.prepareIndex(index, type).setSource(dataSet));
		}

		bulkRequest.execute().actionGet();
		// if (client != null) {
		// client.close();
		// }
	}

	public static void close() {
		if (client != null) {
			client.close();
		}
	}	
}

　　這裡，我們利用BulkRequestBuilder進行批量寫入，減少頻繁寫入率。

4.排程

　　儲存在ES中的資料，如果不需要長期儲存，比如：我們只需要儲存及時查詢資料一個月，對於一個月以前的資料需要清除掉。這裡，我們可以編寫指令碼直接使用Crontab來進行簡單呼叫即可，指令碼如下所示：

#!/bin/sh
# <Usage>: ./delete_es_by_day.sh kafka_error_client logsdate 30 </Usage>
echo "<Usage>: ./delete_es_by_day.sh kafka_error_client logsdate 30 </Usage>"



index_name=$1
daycolumn=$2
savedays=$3
format_day=$4

if [ ! -n "$savedays" ]; then
  echo "Oops. The args is not right,please input again...."
  exit 1
fi

if [ ! -n "$format_day" ]; then
   format_day='%Y%m%d'
fi

sevendayago=`date -d "-${savedays} day " +${format_day}`

curl -XDELETE "es1:9200/${index_name}/_query?pretty" -d "
{
        "query": {
                "filtered": {
                        "filter": {
                                "bool": {
                                        "must": {
                                                "range": {
                                                        "${daycolumn}": {
                                                                "from": null,
                                                                "to": ${sevendayago},
                                                                "include_lower": true,
                                                                "include_upper": true
                                                        }
                                                }
                                        }
                                }
                        }
                }
        }
}"

echo "Finished."

然後，在Crontab中進行定時排程即可。

5.總結

　　這裡，我們在進行資料寫入ES的時候，需要注意，有些欄位是ES保留欄位，比如`_uid`，這裡我們需要轉化，不然寫到ES的時候，會引發衝突導致異常，最終寫入失敗。

6.結束語

　　這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉

Storm與kafka整合
2018-06-12
ORMKafka
Flink Kafka Connector與Exactly Once剖析
2019-09-18
Kafka
Cassandra與Kafka的整合
2020-12-30
Kafka
ElasticSearch與Spring Boot整合
2020-10-25
ElasticsearchSpring Boot
storm(1.1.3)與kafka(1.0.0)整合
2018-09-27
ORMKafka
深入剖析Kafka
2020-01-17
Kafka
《Kafka筆記》4、Kafka架構，與其他元件整合
2020-10-21
Kafka筆記架構元件
Kafka Fetch Session剖析
2021-01-31
KafkaSession
Debezium kafka elasticsearch 配置
2019-03-14
KafkaElasticsearch
Kafka監控系統Kafka Eagle剖析
2018-07-27
Kafka
Spring 對Apache Kafka的支援與整合
2020-11-26
SpringApacheKafka
ElasticSearch與SpringBoot的整合與JPA方法的使用
2019-01-03
ElasticsearchSpring Boot
Kafka事務原理剖析
2022-11-23
Kafka
Kafka 原始碼剖析(一)
2018-03-15
Kafka原始碼
《Elasticsearch技術解析與實戰》Chapter 1.4 Spring Boot整合Elasticsearch
2019-04-16
ElasticsearchAPTSpring Boot
剖析 Elasticsearch 的索引原理
2019-05-13
Elasticsearch索引
Kafka應用實踐與生態整合
2019-05-26
Kafka
ElasticSearch8 - SpringBoot整合ElasticSearch
2024-03-25
ElasticsearchSpring Boot
當Elasticsearch遇見Kafka
2018-11-15
ElasticsearchKafka
ElasticSearch 整合 SpringBoot
2020-11-13
ElasticsearchSpring Boot
springmvc整合elasticsearch
2019-01-03
SpringMVCElasticsearch
SpringBoot 整合 elasticsearch
2019-02-28
Spring BootElasticsearch
SpringBoot整合elasticsearch
2018-05-04
Spring BootElasticsearch
Kafka原理剖析之「Topic建立」
2024-09-07
Kafka
Elasticsearch學習（三）springboot整合ElasticSearch
2021-01-02
ElasticsearchSpring Boot
spark與kafaka整合workcount示例 spark-stream-kafka
2018-10-19
SparkKafka
Spring Boot 整合 Kafka
2023-04-11
Spring BootKafka
Spring Boot 整合 elasticsearch
2019-05-31
Spring BootElasticsearch
Java訊息佇列：RabbitMQ與Kafka的整合與應用
2024-09-01
Java佇列MQKafka
Kafka原理剖析之「位點提交」
2024-04-07
Kafka
kafka原始碼剖析(二)之kafka-server的啟動
2018-03-15
Kafka原始碼Server
Flume 整合 Kafka_flume 到kafka 配置【轉】
2024-04-15
Kafka
solon 整合 kafka-clients
2024-12-06
Kafkaclient
springboot整合kafka配置方式
2024-05-24
Spring BootKafka
kafka+flume的整合
2021-09-09
Kafka
Kafka 簡介 & 整合 SpringBoot
2019-03-06
KafkaSpring Boot
SpringBoot整合Kafka和Storm
2018-05-10
Spring BootKafkaORM
SpingBoot：整合Elasticsearch7.2.0
2019-08-25
bootElasticsearch
SpringBoot整合ElasticSearch7.6.2
2020-06-24
Spring BootElasticsearch