優步分享基於Apache Kafka的Presto使用經驗

banq發表於2022-06-19

Presto和 Apache Kafka 在 Uber 的大資料堆疊中發揮著關鍵作用。
Presto 是查詢聯合的事實標準，已用於互動式查詢、近實時資料分析和大規模資料分析。
Kafka 是支援許多用例的資料流的骨幹，例如釋出/訂閱、流處理等。

透過Presto on Kafka，可以編寫一個簡單的 SQL 查詢SELECT * FROM kafka.cluster.order WHERE uuid = '0e43a4-5213-11ec'並且可以在幾秒鐘內返回結果。
越來越多的使用者正在採用 Presto on Kafka 進行臨時探索。每天有 6,000 個查詢，我們還從 Presto 使用者那裡得到了很好的反饋，他們說 Presto on Kafka 使他們的資料分析變得更加容易。

為什麼要使用Presto？
運營團隊正在調查為什麼有幾條訊息沒有被關鍵服務處理，這將對最終客戶產生直接影響。
然後運維團隊收集了報告問題的幾個UUID，並要求檢查它們是否存在於服務的輸入/輸出 Kafka 流中：
“Is the order with UUID X missing in the Kafka topic T.”

這樣的問題通常透過大資料中的實時分析來解決。在該領域可用的各種技術中，我們專注於 2 類開源解決方案，即：流處理和實時 OLAP 資料儲存。

Apache Flink、Apache Storm 或ksql等流處理引擎連續處理流並輸出處理後的流或增量維護可更新檢視。這種流處理不適合上述問題，因為使用者希望對過去的事件執行點實現查詢或執行分析查詢。

另一方面，Apache Pinot、Apache Druid 和Clickhouse 等實時OLAP資料儲存則更適合。這些OLAP儲存配備了先進的索引技術，因此它們能夠對Kafka資料流進行索引，以提供低延遲的查詢。
事實上，Uber幾年前就採用了Apache Pinot，如今Pinot是Uber資料平臺內部的一項關鍵技術，為多個關鍵任務的實時分析應用提供動力。
然而，實時OLAP需要一個非同尋常的onboarding過程，以建立一個從Kafka流中攝取的表，並調整該表以獲得最佳效能。

這個問題促使Kafka和Presto團隊共同探索一個輕量級的解決方案，並考慮到以下因素。

它重用了現有的Presto部署，這是一項成熟的技術，已經在Uber經過了多年的實戰檢驗。
它不需要onboarding，Kafka主題可以被發現，並且在建立後可以立即被查詢。
Presto以其強大的跨資料來源的查詢聯合能力而聞名，因此它允許Kafka和其他資料來源（如Hive/MySQL/Redis）之間的關聯，以獲得跨資料平臺的洞察力。

然而，這種Presto方法也有其侷限性。例如，它的效能不如實時OLAP儲存，因為Kafka聯結器沒有建立索引，因此必須在一個偏移範圍內掃描Kafka流。此外，為了滿足Uber的可擴充套件性要求，在聯結器上還有其他挑戰需要解決，我們將在下一節詳細說明。

Presto面臨挑戰？

Presto已經有一個支援透過 Presto 查詢 Kafka的Kafka 聯結器。但是，該解決方案並不完全適合我們在 Uber 擁有的大規模 Kafka 架構。有幾個挑戰：

Kafka 主題和叢集發現：在我們提供 Kafka 即服務的 Uber，使用者可以隨時透過自助服務門戶將新主題加入 Kafka。因此，我們需要 Kafka 主題發現是動態的。但是，當前 Presto Kafka 聯結器中的 Kafka 主題和叢集發現是靜態的，每次我們加入新主題時都需要重新啟動聯結器。
資料模式發現：與 Kafka 主題和叢集發現類似，我們將模式登錄檔作為服務提供並支援使用者自助登入。因此，我們需要 Presto-Kafka 聯結器能夠按需檢索最新的模式。
查詢限制：限制每個查詢可以從 Kafka 消費的資料數量對我們來說很重要。Uber 有許多大型 Kafka 主題，其位元組速率可以高達 500 M/s。眾所周知，Presto-Kafka 查詢與其他替代方案相比相對較慢，從 Kafka 拉取大量資料的查詢將需要很長時間才能完成。這不利於使用者體驗，也不利於 Kafka 叢集的健康。
配額控制：作為分散式查詢引擎，Presto 可以以非常高的吞吐量同時消費來自 Kafka 的訊息，這可能導致 Kafka 叢集的潛在叢集降級。限制最大 Presto 消耗吞吐量對於 Kafka 叢集的穩定性至關重要。

優步的改進
Uber 的資料生態系統為使用者提供了一種編寫 SQL 查詢並將其提交到 Presto 叢集執行的方式。每個 Presto 叢集都有一個 coordinator 節點，負責解析 SQL 語句，規劃查詢，排程任務，讓 worker 節點執行。Presto 中的 Kafka 聯結器允許將 Kafka 主題用作表，其中主題中的每條訊息在 Presto 中表示為一行。在收到查詢時，協調器確定查詢是否具有適當的過濾器。驗證完成後，Kafka 聯結器從 Kafka 叢集管理服務獲取叢集和主題資訊。然後它從模式服務中獲取模式。然後 Presto 工作人員與 Kafka 叢集並行對話以獲取所需的 Kafka 訊息。我們還在 Kafka 叢集上為 Presto 使用者設定了代理配額。

詳細點選標題

經驗分享：Apache Kafka的缺點與陷阱 - Emil Koutanov
2019-12-23
ApacheKafka
StreamNative將Kafka整合到基於Apache Pulsar的雲中
2022-06-29
KafkaApache
基於 SAP BTP 平臺的 AI 專案經驗分享
2022-02-21
AI
Polymer使用經驗分享
2019-05-11
Apache Hudi和Presto的前世今生
2020-09-22
ApacheREST
KMQ：基於Apache Kafka的可靠性訊息佇列
2021-06-14
MQApacheKafka佇列
分享一些 Kafka 消費資料的小經驗
2018-11-20
Kafka
經驗分享：RabbitMQ與Kafka等訊息系統的使用者討論 - ycombinator
2020-05-22
MQKafka
Apache Kafka的4個混沌工程實驗 | IDCF
2021-07-12
ApacheKafka
優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理？
2021-09-28
ApacheKafka事件
使用Kafka Streams構建事件源系統的經驗
2018-09-05
Kafka事件
Halodoc使用 Apache Hudi 構建 Lakehouse的關鍵經驗
2022-06-09
Apache
[轉帖]基礎篇：JVM調優原理相關的知識和經驗分享
2024-05-31
JVM
Apache Kafka不適用於Event Sourcing!
2018-09-05
ApacheKafka
2.4 一種基於kafka增量資料校驗的方案
2020-01-06
Kafka
OB導數工具使用經驗分享
2024-04-13
經驗分享
2024-05-14
基於MySQL的分散式資料庫TDSQL十年鍛造經驗分享
2018-06-13
MySql分散式資料庫
Presto記憶體調優及原理（基礎篇）
2018-07-15
REST記憶體
分享一些我自己的docker使用經驗
2020-12-26
Docker
Xray使用的一些經驗分享（xray+burp的使用）
2021-08-09
個推基於 Apache Pulsar 的優先順序佇列方案
2019-04-15
Apache佇列
6條經過驗證的創業經驗分享
2022-06-01
創業
Apache Kafka 的基本概念
2023-01-09
ApacheKafka
手記系列之七 ----- 分享Linux使用經驗
2023-11-04
Linux
Apache Kafka教程--Kafka新手入門
2023-03-14
ApacheKafka
基於工程經驗的『RESTful介面設計規範』
2018-05-18
REST
基於THINKPHP3.2.3開發的IT行業資訊、經驗分享的個人部落格網站
2019-05-11
PHP行業網站
【高中經驗分享】2021.11.29
2021-11-28
安卓應用效能除錯和優化經驗分享
2019-02-20
安卓除錯優化
DoorDash如何使用 Apache Kafka 和 Elasticsearch 構建更快的索引？
2021-07-21
ApacheKafkaElasticsearch索引
基於Apache Doris的湖倉分析
2022-07-28
Apache
從零到一，全面掌握Apache DolphinScheduler發版流程，實戰派經驗分享！
2024-08-21
Apache
關於自媒體運營變現經驗分享
2022-04-13
MySQL 8.0.13組複製安裝步驟和踩坑經驗分享
2018-11-07
MySql
Netflix採用GraphQL的經驗分享
2018-12-12
GitHub CSP應用的經驗分享
2020-08-19
Github
.NET 6 Minimal API 的經驗分享
2022-05-15
API

優步分享基於Apache Kafka的Presto使用經驗

相關文章