基於flink和drools的實時日誌處理

阿凡盧發表於2020-06-27

原文網址 : https://www.cnblogs.com/luxiaoxun/p/13197981.html

1、背景

日誌系統接入的日誌種類多、格式複雜多樣，主流的有以下幾種日誌：

filebeat採集到的文字日誌，格式多樣
winbeat採集到的作業系統日誌
裝置上報到logstash的syslog日誌
接入到kafka的業務日誌

以上通過各種渠道接入的日誌，存在2個主要的問題：

格式不統一、不規範、標準化不夠
如何從各類日誌中提取出使用者關心的指標，挖掘更多的業務價值

為了解決上面2個問題，我們基於flink和drools規則引擎做了實時的日誌處理服務。

2、系統架構

架構比較簡單，架構圖如下：

各類日誌都是通過kafka彙總，做日誌中轉。

flink消費kafka的資料，同時通過API呼叫拉取drools規則引擎，對日誌做解析處理後，將解析後的資料儲存到Elasticsearch中，用於日誌的搜尋和分析等業務。

為了監控日誌解析的實時狀態，flink會將日誌處理的統計資料，如每分鐘處理的日誌量，每種日誌從各個機器IP來的日誌量寫到Redis中，用於監控統計。

3、模組介紹

系統專案命名為eagle。

eagle-api：基於springboot，作為drools規則引擎的寫入和讀取API服務。

eagle-common：通用類模組。

eagle-log：基於flink的日誌處理服務。

重點講一下eagle-log：

對接kafka、ES和Redis

對接kafka和ES都比較簡單，用的官方的connector（flink-connector-kafka-0.10和flink-connector-elasticsearch6），詳見程式碼。

對接Redis，最開始用的是org.apache.bahir提供的redis connector，後來發現靈活度不夠，就使用了Jedis。

在將統計資料寫入redis的時候，最開始用的keyby分組後快取了分組資料，在sink中做統計處理後寫入，參考程式碼如下：

        String name = "redis-agg-log";
        DataStream<Tuple2<String, List<LogEntry>>> keyedStream = dataSource.keyBy((KeySelector<LogEntry, String>) log -> log.getIndex())
                .timeWindow(Time.seconds(windowTime)).trigger(new CountTriggerWithTimeout<>(windowCount, TimeCharacteristic.ProcessingTime))
                .process(new ProcessWindowFunction<LogEntry, Tuple2<String, List<LogEntry>>, String, TimeWindow>() {
                    @Override
                    public void process(String s, Context context, Iterable<LogEntry> iterable, Collector<Tuple2<String, List<LogEntry>>> collector) {
                        ArrayList<LogEntry> logs = Lists.newArrayList(iterable);
                        if (logs.size() > 0) {
                            collector.collect(new Tuple2(s, logs));
                        }
                    }
                }).setParallelism(redisSinkParallelism).name(name).uid(name);

後來發現這樣做對記憶體消耗比較大，其實不需要快取整個分組的原始資料，只需要一個統計資料就OK了，優化後：

        String name = "redis-agg-log";
        DataStream<LogStatWindowResult> keyedStream = dataSource.keyBy((KeySelector<LogEntry, String>) log -> log.getIndex())
                .timeWindow(Time.seconds(windowTime))
                .trigger(new CountTriggerWithTimeout<>(windowCount, TimeCharacteristic.ProcessingTime))
                .aggregate(new LogStatAggregateFunction(), new LogStatWindowFunction())
                .setParallelism(redisSinkParallelism).name(name).uid(name);

這裡使用了flink的聚合函式和Accumulator，通過flink的agg操作做統計，減輕了記憶體消耗的壓力。

使用broadcast廣播drools規則引擎

1、drools規則流通過broadcast map state廣播出去。

2、kafka的資料流connect規則流處理日誌。

//廣播規則流
env.addSource(new RuleSourceFunction(ruleUrl)).name(ruleName).uid(ruleName).setParallelism(1)
                .broadcast(ruleStateDescriptor);

//kafka資料流
FlinkKafkaConsumer010<LogEntry> source = new FlinkKafkaConsumer010<>(kafkaTopic, new LogSchema(), properties);
env.addSource(source).name(kafkaTopic).uid(kafkaTopic).setParallelism(kafkaParallelism);

//資料流connect規則流處理日誌
BroadcastConnectedStream<LogEntry, RuleBase> connectedStreams = dataSource.connect(ruleSource);
connectedStreams.process(new LogProcessFunction(ruleStateDescriptor, ruleBase)).setParallelism(processParallelism).name(name).uid(name);

具體細節參考開原始碼。

4、小結

本系統提供了一個基於flink的實時資料處理參考，對接了kafka、redis和elasticsearch，通過可配置的drools規則引擎，將資料處理邏輯配置化和動態化。

對於處理後的資料，也可以對接到其他sink，為其他各類業務平臺提供資料的解析、清洗和標準化服務。

專案地址：

https://github.com/luxiaoxun/eagle

Flink 在又拍雲日誌批處理中的實踐
2021-02-03
基於go開發日誌處理包
2018-10-22
Go
實時資料處理：Kafka 和 Flink
2024-03-18
Kafka
Flink基礎：實時處理管道與ETL
2020-11-11
【Flink】基於 Flink 的流式資料實時去重
2024-10-11
orbeon form 的日誌處理
2021-12-19
ORBORM
基於AOP和ThreadLocal實現日誌記錄
2020-06-29
thread
日處理資料量超10億：友信金服基於Flink構建實時使用者畫像系統的實踐
2019-12-30
使用Kafka和Flink構建實時資料處理系統
2018-09-05
Kafka
基於 Flink CDC 的實時同步系統
2023-03-17
如何基於日誌，同步實現資料的一致性和實時抽取?
2019-07-17
處理nginx訪問日誌，篩選時間大於1秒的請求
2018-11-15
Nginx
基於 Flink 的實時數倉生產實踐
2019-11-28
DoorDash使用 Kafka 和 Flink 構建可擴充套件的實時事件處理
2022-08-15
Kafka套件事件
flink使用Event_time處理實時資料
2019-02-28
基於Flink和規則引擎的實時風控解決方案
2019-10-23
攜程基於Flink的實時特徵平臺
2019-04-26
特徵
shell日誌顏色處理
2018-09-27
Spark SQL：實現日誌離線批處理
2018-09-17
SparkSQL
指令碼處理iOS的Crash日誌
2018-12-29
指令碼iOS
錢大媽基於 Flink 的實時風控實踐
2022-06-21
GaussDB(DWS)基於Flink的實時數倉構建
2024-04-18
scrapy處理post請求的傳參和日誌等級
2019-03-04
快手基於 Apache Flink 的實時數倉建設實踐
2023-04-07
Apache
同步伺服器日誌到 SeaTable，讓日誌更好的視覺化和協同處理
2021-10-23
伺服器視覺化
node錯誤處理與日誌
2019-02-16
DATAGUARD中手工處理日誌GAP
2019-04-12
基於 MongoDB 的 python 日誌功能
2019-03-04
MongoDBPython
Airwallex 基於 Flink 打造實時風控系統
2023-03-30
AI
Flink處理函式實戰之四：視窗處理
2020-11-23
函式
Flink域名處理
2022-03-21
關於收集，標準化和集中化處理 Golang 日誌的一些建議
2020-04-09
Golang
對 Hyperf 做的那些事 3（日誌處理）
2020-01-06
ES & Filebeat 使用 Pipeline 處理日誌中的 @timestamp
2020-11-01
ELK 處理 Spring Boot 日誌，不錯！
2023-09-19
Spring Boot
如何在zuul上做日誌處理
2020-02-19
Zuul
搭建node服務(1)：日誌處理
2020-04-21
SpringBoot第十三篇：日誌處理
2019-06-04
Spring Boot

基於flink和drools的實時日誌處理

相關文章