OpenMLDB 線上模組架構解析

第四正規化開發者社群發表於2022-03-23

原文網址 : https://www.cnblogs.com/4paradigm-opensource/p/16045859.html

本文介紹 OpenMLDB 線上模組的架構，歡迎通過以下渠道瞭解關於 OpenMLDB 的更多資訊

GitHub：GitHub - 4paradigm/OpenMLDB: OpenMLDB is an open-source machine learning database that provides a full-stack FeatureOps solution for production.github.com/4paradigm/OpenMLDB

OpenMLDB 使用文件：OpenMLDB 文件 (v0.4)

技術交流群：微信群掃碼

1. 概覽

OpenMLDB 的線上模組主要負責特徵指令碼上線以後的實時特徵計算，因此對於低延遲、高併發、高可用等有較高的要求。線上架構的主要模組包括 Apache ZooKeeper, nameserver 以及 tablets（進一步包含了SQL engine 和 storage engine）。如下圖顯示了這些模組之間的相互關係。其中 tablets 是整個 OpenMLDB 儲存和計算的核心模組，也是消耗資源做多的模組；ZooKeeper 和 nameserver 主要用於輔助功能，如後設資料的管理和高可用等。本文以下將會詳細介紹各個模組的作用。

2. Apache ZooKeeper

OpenMLDB 依賴 ZooKeeper 做服務發現和後設資料儲存和管理功能。ZooKeeper 和 OpenMLDB SDK，tablets, namesever 之間都會存在互動，用於分發和更新後設資料。

3. Nameserver

Nameserver 主要用來做 tablet 管理以及故障轉移（failover）。當一個 tablet 節點當機後，nameserver 就會觸發一系列任務來執行故障轉移，當節點恢復後會重新把資料載入到該節點中。同時，為了保證 nameserver 本身的高可用，nameserver 在部署時會部署多個例項，採用了 primary/secondary 節點的部署模式，同一時刻只會有一個 primary 節點。多個 nameserver 通過 ZooKeeper 實現 primary 節點的搶佔。因此，如果當前的 primary 節點意外離線，則 secondary 節點會藉助 ZooKeeper 選出一個節點重新作為 primary 節點。

4. Tablets

Tablet 是 OpenMLDB 用來執行 SQL 和資料儲存的模組，也是整個 OpenMLDB 功能實現的核心以及資源佔用的瓶頸。Tablet 從功能上來看，進一步包含了 SQL engine 和 storage engine 兩個模組。Tablet 也是 OpenMLDB 部署資源的可調配的最小粒度，一個 tablet 不能被拆分到多個物理節點；但是一個物理節點上可以有多個 tablets。

4.1 SQL Engine

SQL engine 負責執行 SQL 查詢計算。SQL engine 收到 SQL 查詢的請求後的執行過程如下圖所示：

SQL 引擎通過 ZetaSQL 把 SQL 解析成AST語法樹。因為我們加入了 LAST JOIN，WINDOW``UNION 等針對特徵工程擴充套件的特殊 SQL 語法，所以對開源的 ZetaSQL 做了優化。經過如上圖一系列的編譯轉化、優化，以及基於 LLVM 的 codegen 之後，最終生成執行計劃。SQL 引擎基於執行計劃，通過 catalog 獲取儲存層資料做最終的 SQL 執行運算。在分散式版本中，會生成分散式的執行計劃，會把執行任務發到其他 tablet 節點上執行。目前 OpenMLDB 的 SQL 引擎採用 push 的模式，將任務分發到資料所在的節點執行，而不是將資料拉回來。這樣做的好處可以減少資料傳輸。

4.2 Stoage Engine

Storage engine 負責 OpenMLDB 資料的儲存，以及支援相應的高可用相關的功能。

資料分佈

OpenMLDB 叢集版是一個分散式的資料庫，一張表的資料會進行分片，並且建立多個副本，最終分佈在不同的節點中。這裡展開說明兩個重要的概念：副本和分片。

副本（replication）：為了保證高可用以及提升分散式查詢的效率，資料表將會被存放多個拷貝，這些拷貝就叫做副本。
分片（partition）：一張表（或者具體為一個副本）在具體儲存時，會進一步被切割為多個分片用於分散式計算。分片數量可以在建立表時指定，但是一旦建立好，分片數就不能動態修改了。分片是儲存引擎主從同步以及擴縮容的最小單位。一個分片可以靈活的在不同的 tablet 之間實現遷移。同時一個表的不同分片可以平行計算，提升分散式計算的效能。OpenMLDB 會自動儘量使得每一個 tablet 上的分片數目儘量平衡，以提升系統的整體效能。一張表的多個分片可能會分佈在不同 tablet 上，分片的角色分為主分片（leader）和從分片（follower）。當獲得計算請求時，請求將會被髮送到資料所在對應的主分片上進行計算；從分片用於保證高可用性。

如下圖顯示了一個資料表，在兩個副本的情況下，基於四個分片，在三個 tablets 上的儲存佈局。實際使用中，如果某一個或者幾個 tablet 的負載過高，可以基於分片，進行資料遷移，來改善系統的負載平衡和整體的吞吐。

資料持久化及主從同步

目前版本的 OpenMLDB 的線上資料全部儲存在記憶體中，為了實現高可用會把資料通過 binlog 以及 snapshot 的形式持久化到硬碟中。

如上圖所示，服務端收到 SDK 的寫請求後會同時寫記憶體和 binlog。binlog 是用來做主從同步的，資料寫到 binlog 後會有一個後臺執行緒非同步的把資料從 binlog 中讀出來然後同步到從節點中。從節點收到同步請求後同樣是寫記憶體和 binlog。Snapshot 可以看作是記憶體資料的一個映象，不過出於效能考慮，snapshot 並不是從記憶體 dump 出來，而是由 binlog 和上一個 snapshot 合併生成。在合併的過程中會刪除掉過期的資料。OpenMLDB會記錄主從同步和合併到 snapshot 中的 offset, 如果一個 binlog 檔案中的資料全部被同步到從節點並且也合併到了 snapshot 中，這個 binlog 檔案就會被後臺執行緒刪除。

注意：在即將釋出的 v0.5.0 版本中，OpenMLDB 也會支援基於磁碟的儲存引擎，則其持久化機制會和本文描述不一樣。

螞蟻金服 mPaaS 模組化開發與架構重構深度解析
2019-04-23
架構
深入理解Nginx：模組開發與架構解析（第2版）
2018-12-04
Nginx架構
重磅訊息·OpenMLDB官方網站今日正式上線！
2022-02-14
網站
Nginx 架構——【核心流程+模組介紹】
2019-03-25
Nginx架構
模組化單體架構綜合指南
2024-04-26
架構
java 考試系統模組架構方案
2021-12-31
Java架構
80iter線上工具模組上線啦！
2019-05-11
json解析模組
2021-01-03
JSON
接入層Nginx架構及模組介紹分享
2020-03-11
Nginx架構
springboot 後臺管理模組架構設計方案
2021-10-22
Spring Boot架構
實時決策系統中 OpenMLDB 的常見架構整合方式
2023-04-05
架構
ws模組指南+Vue線上聊天室
2019-02-16
Vue
tomcat架構解析
2020-11-28
Tomcat架構
JavaScript 模組化解析
2018-10-22
JavaScript
無線模組透明傳輸原理及過程解析
2024-04-30
iOS架構：AOP實現區域性模組化
2019-04-02
iOS架構
Mysql架構與內部模組-第二章
2020-10-16
MySql架構
嵌入式軟體架構設計-模組化
2022-06-27
架構
iOS 元件化/模組化架構設計實踐
2021-10-31
iOS元件化架構
新零售SaaS架構：線上商城系統架構設計
2024-03-21
架構
線上教育系統軟體架構
2024-12-11
架構
使用無線模組構建可穿戴裝置
2018-05-07
activiti架構解析草稿
2024-06-18
架構
【node】模組解析之 http
2019-02-16
HTTP
Dubbo的Remoting模組解析
2023-03-08
REM
Mysql架構與內部模組-第三章
2020-10-17
MySql架構
大資料系統架構的通用模組有哪些
2022-04-12
大資料架構
rust 模組組織結構
2020-08-31
Rust
解析線上教育系統原始碼架構：構建可擴充套件的企業教學平臺
2023-12-28
原始碼架構套件
ABP vnext模組化架構的最佳實踐的實現
2020-10-13
架構
從0搭建一個FIFO模組-02（系統架構）bL
2024-11-22
架構
Netty整體架構解析
2024-03-23
Netty架構
postman(一)：主介面模組解析
2018-12-19
Postman
python argparse(引數解析模組)
2019-02-01
Python
webpack核心模組tapable用法解析
2021-03-15
Web
乾貨 | 攜程線上風控系統架構
2018-12-04
架構
華納雲：Web伺服器Tomcat的架構模組有哪些
2023-09-15
Web伺服器Tomcat架構
OpenMLDB SQL 開發除錯神器 - OpenMLDB SQL Emulator
2023-11-24
SQL除錯