使用Flink SQL進行實時效能監控：AdTech廣告用例

banq發表於2020-12-08

廣告技術（Ad Tech）是一個統稱，它描述用於管理和分析程式化廣告活動的系統和工具。數字廣告的目標是儘可能多地吸引相關受眾。因此，廣告技術本質上與處理大量資料有關。

在此部落格文章中，我們將研究如何關聯兩個事件流-廣告投放（所謂的展示次數）和點選次數，並計算重要的廣告技術指標-點選率（CTR）。我們的計算將使用Apache Flink的水平可擴充套件執行引擎基於執行中的資料進行。我們將專注於獲得結果，而無需使用Java或Scala編寫任何程式碼，而是完全依賴SQL。

在典型情況下，廣告的放置是通過稱為實時出價的機制執行的。從本質上講，實時競標是一種拍賣，眾多參與者競相向特定終端使用者顯示橫幅或視訊（統稱為Creative）。在此過程中，需求方平臺（DSP）獲得了向使用者顯示廣告的產品，這些廣告由使用者的裝置ID標識並用其投注進行回覆。

跟蹤顯示的印象和單擊的印象是數字廣告技術的關鍵任務之一。

儘管放置廣告的過程在很大程度上是自動化的，但廣告活動經理和業務分析師通常仍會採用相當程度的手動控制。通常，活動的定義和受眾的選擇器（如人口統計，原籍國以及活動的績效標準）是手動定義的。可能需要密切監視活動的績效並調整某些引數，尤其是在釋出後的早期階段（即驗證假設的時間）。

為什麼要進行流處理？

傳統上，通過使用批處理來解決獲取大量資料的見解的任務。這種方法與數字廣告業務的高度動態性相矛盾。實時獲取見解至關重要-等待一個小時或更長的時間以完成一個批處理任務，以完成原始資料的處理，同時由於活動的初始引數錯誤而耗盡預算是非常不可取的。此外，對於依賴於關聯兩個後續事件的任何度量標準，對於位於批處理“臨界值”相對側的事件，批處理將無法提供正確的結果，因此將由兩個不同的批處理作業進行處理。

為什麼使用Flink SQL？

監視活動的任務通常由資料或業務分析師執行。由於業務的動態性質，可能會與新的資料饋送進行潛在的臨時整合，向現有資料流新增新維度以及進行其他類似的調整。在這種情況下，需要消除資料分析師在執行日常任務時對資料工程師的依賴性。為了實現這一點，需要具有低採用障礙的靈活工具集。SQL是資料分析的通用語言，其知識十分廣泛。在Flink中執行SQL語句使您可以利用Flink的水平可伸縮流處理引擎的功能，而無需成為Java或Scala開發人員。

示例

在我們的示例中，我們將使用兩個資料流。首先，通過定義它們的模式和表選項將這些流注冊為表。

第一個流是廣告展現流。這些事件中的每一個都表示在實時出價拍賣中獲勝，並向使用者成功展示了廣告素材。它包含諸如廣告素材的尺寸，國家/地區程式碼和廣告系列ID之類的詳細資訊。

CREATE TEMPORARY TABLE `impressions` (
 bid_id VARCHAR NOT NULL,
 `timestamp` VARCHAR,
 serve_time AS 
    TO_TIMESTAMP(`timestamp`, 'EEE MMM dd HH:mm:ss zzz yyyy'),
 campaign_id INT,
 creative_dimensions VARCHAR,
 country_code VARCHAR(2),
 WATERMARK FOR serve_time AS serve_time - INTERVAL '5' SECOND
)
WITH (
 'connector' = 'kafka',
 'format' = 'json',
 'properties.bootstrap.servers' = 'kafka.svc:9092',
 'properties.group.id' = 'impressions',
 'scan.startup.mode' = 'latest-offset',
 'topic' = 'impressions-ingest'
);

在此示例中，事件以JSON格式從Kafka獲得資料使用。

WATERMARK FOR serve_time AS serve_time - INTERVAL '5' SECOND

意味著我們可以容忍5秒的時間外的訂單交付的事件，仍然產生正確的結果。

點選廣告後，我們可以在顯示廣告後跟蹤的最重要結果之一。

CREATE TABLE TEMPORARY `clicks` (
 correlation_id VARCHAR NOT NULL,
 `timestamp` VARCHAR,
 click_time AS 
    TO_TIMESTAMP(`timestamp`, 'EEE MMM dd HH:mm:ss zzz yyyy'),
 tracker VARCHAR,
 WATERMARK FOR click_time AS click_time - INTERVAL '5' SECOND 
)
WITH (
 'connector' = 'kafka',
 'format' = 'json',
 'properties.bootstrap.servers' = 'kafka.svc:9092',
 'properties.group.id' = 'clicks',
 'scan.startup.mode' = 'latest-offset',
 'topic' = 'clicks-ingest'
);

的SQL

點選流的correlation_id對應於印象流的bid_id欄位。這將成為連線各個資料流和計算點選率（CTR）的基礎。但是在研究點選率計算之前，讓我們首先從更簡單的方法開始，檢查所有部件是否位於正確的位置。

使用Flink SQL進行實時效能監控：AdTech廣告用例

以下查詢計算在60秒的翻轉視窗中按campaign_id和creative_dimensions細分的展示次數：

SELECT 
 campaign_id, 
 creative_dimensions, 
 TUMBLE_ROWTIME(event_time, INTERVAL '60' SECOND) 
   AS window_end, COUNT(*) AS c
FROM impressions
GROUP BY 
  TUMBLE(event_time, INTERVAL '60' SECOND), 
  campaign_id, 
  creative_dimensions
ORDER BY window_end, c DESC;

更多點選標題見原文

結論

儘管此部落格文章側重於將Flink SQL應用於Ad Tech用例，但一般主題適用於各種場景，並且具有以下要求的任意組合：

實時瞭解發生的事件資料
降低組織中訪問實時資料並對其執行分析的障礙
減輕傳統資料庫的負擔

使用Prometheus監控Flink
2020-07-27
Prometheus
【譯】Google - 使用 webpack 進行 web 效能優化（三）：監控和分析應用
2018-09-17
GoWeb優化
在Ubuntu上使用Netdata設定實時效能監控
2018-08-15
Ubuntu
springboot中加入druid對sql進行監控
2018-08-18
Spring BootUISQL
在Linux中，如何進行磁碟效能監控？
2024-05-24
Linux
進行Linux效能監控的命令介紹
2023-11-09
Linux
Node效能如何進行監控以及優化？
2021-07-20
優化
一種對雲主機進行效能監控的監控系統及其監控方法
2018-07-30
在Linux中，如何進行系統效能監控？
2024-05-24
Linux
在Linux中，如何進行硬體效能監控？
2024-06-01
Linux
Node效能如何進行監控以及最佳化？
2024-05-29
使用 Sentry 對應用進行監控，少 bug 少加班
2021-10-19
如何進行網站的真實使用者監控(RUM)？怎麼進入監控網站
2020-11-30
網站
聊聊如何利用p6spy進行sql監控
2022-06-28
SQL
【Zabbix】如何使用Zabbix進行IPMI監控？
2018-11-14
Disney 流媒體廣告 Flink 的應用實踐
2023-01-23
jfinal中如何使用過濾器監控Druid監聽SQL執行？
2022-06-29
過濾器UISQL
Flink SQL結合Kafka、Elasticsearch、Kibana實時分析電商使用者行為
2021-01-16
SQLKafkaElasticsearch
K8S Canal基於Prometheus進行實時指標監控
2020-11-06
K8SPrometheus指標
Zabbix監控使用進階
2020-12-07
使用Powershell對目標進行螢幕監控
2018-05-24
在Linux中，如何進行系統效能的持續監控？
2024-06-06
Linux
mytop 使用介紹 mysql實時監控工具
2021-09-09
MySql
如何進行監控設計？
2021-06-11
超實用！！rsync分散式 + inotify監控實時同步
2020-10-24
分散式
Flutter效能監控工具（3）--- Observatory使用
2019-01-28
Flutter
實時計算Flink效能調優
2018-11-05
監控 SQL Server 的執行狀況
2019-05-07
SQLServer
使用 ABAP 事物碼 SAT 對從瀏覽器開啟的 SAP應用進行效能監控和測量
2022-07-10
瀏覽器
優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理？
2021-09-28
ApacheKafka事件
使用aop來監控方法進行增強處理
2020-10-10
centos7使用ntopng進行流量監控和分析
2020-11-30
CentOS
使用 iotop 監控哪些程式在進行I/O操作
2020-12-05
正常執行時間監控
2023-11-22
flink sql 實時同步及離線同步
2024-06-03
SQL
如何使用nload實時監控網路頻寬
2021-08-23
14個Flink SQL效能最佳化實踐分享
2024-05-23
SQL
前端效能監控
2019-04-03
前端

使用Flink SQL進行實時效能監控：AdTech廣告用例

相關文章