Kafka - SQL 引擎分享

哥不是小蘿莉發表於2016-04-14

1.概述

　　大多數情況下，我們使用 Kafka 只是作為訊息處理。在有些情況下，我們需要多次讀取 Kafka 叢集中的資料。當然，我們可以通過呼叫 Kafka 的 API 來完成，但是針對不同的業務需求，我們需要去編寫不同的介面，在經過編譯，打包，釋出等一系列流程。最後才能看到我們預想的結果。那麼，我們能不能有一種簡便的方式去實現這一部分功能，通過編寫 SQL 的方式，來視覺化我們的結果。今天，筆者給大家分享一些心得，通過使用 SQL 的形式來完成這些需求。

2.內容

　　實現這些功能，其架構和思路並不複雜。這裡筆者將整個實現流程，通過一個原理圖來呈現。如下圖所示：

　　這裡筆者給大家詳述一下上圖的含義，訊息資料來源存放與 Kafka 叢集當中，開啟低階和高階兩個消費執行緒，將消費的結果以 RPC 的方式共享出去（即：請求者）。資料共享出去後，迴流經到 SQL 引擎處，將記憶體中的資料翻譯成 SQL Tree，這裡使用到了 Apache 的 Calcite 專案來承擔這一部分工作。然後，我們通過 Thrift 協議來響應 Web Console 的 SQL 請求，最後將結果返回給前端，讓其以圖表的實行視覺化。

3.外掛配置

　　這裡，我們需要遵循 Calcite 的 JSON Models，比如，針對 Kafka 叢集，我們需要配置一下內容：

{
    version: '1.0',
    defaultSchema: 'kafka',  
    schemas: [  
        {
            name: 'kafka',  
            type: 'custom',
            factory: 'cn.smartloli.kafka.visual.engine.KafkaMemorySchemaFactory',  
            operand: {
                database: 'kafka_db'
            }  
        } 
    ]
}

　　另外，這裡最好對錶也做一個表述，配置內容如下所示：

[
    {
        "table":"Kafka",
        "schemas":{
            "_plat":"varchar",
            "_uid":"varchar",
            "_tm":"varchar",
            "ip":"varchar",
            "country":"varchar",
            "city":"varchar",
            "location":"jsonarray"
        }
    }
]

4.操作

　　下面，筆者給大家演示通過 SQL 來操作相關內容。相關截圖如下所示：

　　在查詢處，填寫相關 SQL 查詢語句。點選 Table 按鈕，得到如下所示結果：

　　我們，可以將獲取的結果以報表的形式進行匯出。

　　當然，我們可以在 Profile 模組下，瀏覽查詢歷史記錄和當前正在執行的查詢任務。至於其他模組，都屬於輔助功能（展示叢集資訊，Topic 的 Partition 資訊等）這裡就不多贅述了。

5.總結

　　分析下來，整體架構和實現的思路都不算太複雜，也不存在太大的難點，需要注意一些實現上的細節，比如消費 API 針對叢集訊息引數的調整，特別是低階消費 API，尤為需要注意，其 fetch_size 的大小，以及 offset 是需要我們自己維護的。在使用 Calcite 作為 SQL 樹時，我們要遵循其 JSON Model 和標準的 SQL 語法來運算元據源。

6.結束語

這篇部落格就和大家分享到這裡，如果大家在研究學習的過程當中有什麼問題，可以加群進行討論或傳送郵件給我，我會盡我所能為您解答，與君共勉！

Kafka分散式查詢引擎
2020-11-30
Kafka分散式
kafka(docker) 入門分享
2022-01-25
KafkaDocker
Kafka - SQL 程式碼實現
2016-05-09
KafkaSQL
openGauss SQL引擎（上）
2022-11-08
SQL
SQL----儲存引擎
2024-07-23
SQL儲存引擎
apache kafka技術分享系列(目錄索引)
2015-08-30
ApacheKafka索引
探究Presto SQL引擎(1)-巧用Antlr
2021-08-10
RESTSQL
MongoDB技術分享：WiredTiger儲存引擎
2018-11-28
MongoDB儲存引擎
規則引擎開發經驗分享 - reddit
2022-02-16
探究Presto SQL引擎(2)-淺析Join
2022-04-18
RESTSQL
自己動手寫SQL執行引擎
2020-09-25
SQL
探究Presto SQL引擎(3)-程式碼生成
2022-06-07
RESTSQL
Oracle DBA常用sql分享
2015-11-30
OracleSQL
穿越時間的引擎：解密 Kafka 訊息的時序之謎
2023-12-19
解密Kafka
技術分享| 訊息佇列Kafka群集部署
2022-10-18
佇列Kafka
Zeebe與Kafka的天作之合：將Zeebe工作流引擎引入Apache Kafka實現微服務編排 - Bernd Rücker
2019-11-19
KafkaApache微服務
《CF穿越火線》引擎動畫案例分享（下）：迭代整合和引擎動畫的誤區
2019-07-03
動畫
Presto：Facebook的分散式SQL查詢引擎
2013-11-10
REST分散式SQL
SQL Server中的執行引擎入門
2015-12-20
SQLServer
Sphinx : 高效能SQL全文檢索引擎
2015-07-10
SQL索引
SQL Server2008引擎元件
2011-03-09
SQLServer元件
經驗分享：Apache Kafka的缺點與陷阱 - Emil Koutanov
2019-12-23
ApacheKafka
優步分享基於Apache Kafka的Presto使用經驗
2022-06-19
ApacheKafkaREST
技術分享 | my2sql 接入 DBeaver 案例分享
2022-01-21
SQL
openGauss SQL引擎（下）——查詢最佳化
2022-11-08
SQL
Arroyo：基於Arrow和DataFusion的新SQL引擎
2024-03-20
SQL
分享一些 Kafka 消費資料的小經驗
2018-11-20
Kafka
給大家分享一個 python 做的搜尋引擎
2019-08-04
Python
提速 Spark SQL 2 倍，GLUTEN 向量化引擎原理剖析
2023-03-30
SparkSQL
Hive SQL on Flink 構建流批一體引擎
2023-05-06
HiveSQL
SQL Server CDC配合Kafka Connect監聽資料變化
2021-04-22
SQLServerKafka
sql入門基礎知識分享
2019-04-01
SQL
SQL Server快速匯入資料分享
2014-04-26
SQLServer
Oracle 高效能SQL引擎剖析--SQL優化與調優機制詳解
2018-06-24
OracleSQL優化
kafka-ngx_kafka_module
2020-11-16
Kafka
【Kafka】Kafka叢集搭建
2017-07-17
Kafka
Kafka實戰－Kafka Cluster
2015-05-29
Kafka
數棧產品分享：Kafka—實時離不開的那個TA
2021-04-28
Kafka