時序資料庫方興未艾,有人卻說看到了終局

qing_yun發表於2022-11-02

近年來資料庫領域最火熱的兩個細分賽道非圖資料庫與時序資料庫莫屬,根據DB-Engines的資料(如下圖),近幾年時序資料庫的流行度一直穩居第二。

近些年,一些新的時序資料庫創業公司出現,獲得資本的青睞,在萬物智聯時代爭相競逐,尤其是中國的初創公司,在時序資料庫領域與全球基本處於同一起跑線,業界普遍認為前景可期。但也有人認為,專有的時序資料庫是走了NoSQL的老路,沒有未來,在萬物智聯時代,資料庫的盡頭是超融合。

資料庫的盡頭是超融合?

時序資料庫是時間序列資料庫的簡稱,也是NoSQL資料庫的一種。簡單來說,時序資料庫(TSDB)是針對時間戳或時間序列資料最佳化的資料庫。與其它資料不同,時間序列資料總是會和時間繫結在一起。比如伺服器的指標、網路資料、感測器資料、街道上的監控資料等等,主要應用於分析預測和監控告警方面。

隨著物聯網、5G等不斷髮展,時序資料海量爆發,傳統的關聯式資料庫無法滿足要求,出現了像InfluxDB這樣的專有時序資料庫,近年來海內外巨頭也開始針對時序場景佈局推出相關產品,如Amazon Timestream、騰訊雲CTSDB、阿里雲TSDB、螞蟻集團CeresDB等相繼推出,也有很多新的創業公司出現,如國外的TimescaleDB,國內的濤思科技TDengine、智叟科技DolphinDB、四維縱橫YMatrix、諾司時空CnosDB、格睿雲Greptime等,創業者也獲得了資本的青睞。

值得一提的是四維縱橫 YMatrix,該公司於2020年8月成立,僅兩年時間,公司已獲得累計近2億元人民幣的4輪融資。針對萬物互聯趨勢下的新需求,該公司提出了“超融合資料庫”這一新理念,推出了超融合資料庫YMatrix。

YMatrix創始人&CEO姚延棟是前Greenplum的北京研發中心負責人,“我們不是說以前做數倉就繼續做數倉,我們更多地還是看未來大時代需要什麼。”姚延棟告訴IT168&ITPUB,與其他投入時序資料庫領域的創業者一樣,四維縱橫創始團隊看到了萬物智聯時代的到來才出來創業。他指出,2020年往後十年會是萬物互聯+數字化轉型兩個趨勢疊加在一起,資料組成將發生結構性變化,時間序列資料的產生速度和量級會慢慢成為未來資料的主體,所以對時序資料的處理會有廣泛的需求。

姚延棟進一步指出,資料庫的本質是接資料、存資料、用資料。他觀察到越來越多諸如智慧工廠、智慧網聯汽車、智慧能源、智慧地球 等場景資料型別多樣,業務複雜,對資料庫提出了新的需求。比如對工廠中的裝置做預測性維護,既需要儲存各種感測器採集來的海量時序資料,還需要結合生產排程、維修記錄等等不同的資料來源,要求資料庫具備強大的綜合分析能力。四維縱橫團隊認為,現在沿著NoSQL的思路做一款專有的時序資料庫已經沒有意義,如今已經到了超融合時代,使用者需要一款超融合資料庫以一套架構解決客戶更多的問題。

YMatrix 在發展方向上與其它專用時序資料庫有很大不同,姚延棟介紹。在DB-Engines常年霸榜的InfluxDB,是一個典型的專有時序資料庫,在早期是針對伺服器的運維監控場景,對IoT的支援並不是特別好,但分析能力欠缺。與YMatrix比較像的TimescaleDB,雖然同是基於PG研發,但是TimescaleDB是在PG的Heap引擎上針對時序場景進行最佳化,提高壓縮比,並沒有專門研發時序儲存引擎,雖然能夠很好支援熱資料的點查,但是對於明細查和聚合查的效能會弱一些。

YMatrix所提供的超融合能力在技術上包含兩層,一是對多種模型資料的支援,能夠支援時序資料、關係資料、GIS 資料、JSON文件資料、KV鍵值資料、Text文字資料 等多模資料,二是對多種資料操作的支援,包括TP場景併發事務支援,AP分析場景的大寬表、多表關聯查詢,以及時序場景下的點查、明細查、聚合查等操作,並且支援庫內演算法建模,零資料搬遷實現機器學習。一方面支援海量多型別資料的複雜高速寫入和儲存,另一方面也實現以統一一致的體驗,支援各種各樣的資料操作。

近年來,融合已經成為資料庫技術發展的重要趨勢,包括HTAP、軟硬一體、多模等不斷髮展,並進一步向著這種超融合方向演進,類似YMatrix這樣具備“超融合”特性的產品,已經成為了近年的研發趨勢。海外市場,Snowflake 和 Databricks 曾先後提出 “one data platform”理念;日前Oracle推出 MySQL HeatWave Lakehouse,繼續擴大融合範圍;時序資料庫先行者 InfluxDB 和 TimescaleDB,也先後啟動了新一代融合型資料庫的研發。國內市場,星環科技提出多模型融合技術,阿里雲的Lindorm也提出了多模超融合資料庫概念。

“未來(資料庫)的終局就是超融合,把所有的都融合在一起,現在只是融合了一小部分。”姚延棟指出,就像智慧手機融合了電話、MP3、相機,資料庫市場正走向超融合時代。市場上一些多模資料庫只是融合了第一層對多模資料的支援,而第二層對資料操作的支援往往更重要且是最難的。

超融合資料庫的效能怎麼樣?

在資料庫領域,效能為王,是一切功能特性的前提。日前,四維縱橫推出了超融合資料庫YMatrix 5.0,在釋出會上姚延棟強調:“效能加持下的超融合,才是真正的超融合,才能給使用者提供價值”。

“在YMatrix團隊內部,我們關注全場景效能表現,包括寫入能力、時序查詢能力、單表OLAP分析、多表關聯OLAP分析、Machine Learning效能以及 OLTP 能力等諸多方面”,姚延棟指出,去年釋出的4.0版本其實還算不上團隊理想中的超融合資料庫,4.0驗證了HTAP和時序場景的支援,不過在通用分析方面的效能還有差距,所以4.0版本稱為超融合時序資料庫。但是YMatrix 5.0真正做到了超融合資料庫,能夠支援多模和各種資料操作,在效能、功能和易用性方面都實現了很大提升。

來看一組四維縱橫提供的最新測試資料:

  • 真實生產環境實測資料寫入速度可達 1.52億點每秒;

  • 對比同是基於PG打造的時序資料庫獨角獸TimescaleDB,查詢耗時是YMatrix的5.1倍;

  • 對比OLAP資料庫產品Clickhouse,YMatrix在SSB基礎測試上快27%;

  • 對比MPP資料庫主流廠商Greenplum,YMatrix在多表關聯分析場景上實現了數倍的效能提升;

  • 對比Spark,YMatrix在機器學習場景上的效能是其8倍;

  • 在Intel實驗室的TPC-B 國際標準測試中,YMatrix主鍵查詢tps高達160萬,可以滿足絕大多數企業的業務需求。

能夠在短短兩年時間內取得這樣的好成績,有多方面因素。其中比較重要的原因是四維縱橫並不是從零開始重新研發一款新資料庫,而是選擇站在巨人的肩膀上。YMatrix基於開源資料庫最新版本Greenplum 7(基於PG12)研發,創始團隊曾在Greenplum工作多年,是分析型資料庫領域少見的完整建制團隊。YMatrix 基於Greenplum資料庫和PostgreSQL資料庫進行的最佳化,繼承了上述兩種資料庫中的優點,如標準SQL的豐富性,查詢速度較快,併發數較高等。

另一個重要因素是不斷自研創新,最重要的創新是YMatrix採用了獨創的微核心架構,一個分散式資料庫,核心主要包括最佳化器、執行器、儲存器、併發控制和事務管理、分散式叢集管理五大方面。YMatrix 打造了面向TP場景、AP場景、時序場景的三個微核心,每個微核心由不同儲存引擎和執行器組成,其它部分共用。比如,面向TP場景的微核心,由基於PG Heap儲存引擎+火山模型執行器組成,而面向時序場景的微核心,由自研的時序儲存引擎+向量化執行器組成。

微核心架構是YMatrix實現超融合的關鍵。透過微核心架構,可以在一個資料庫裡面支援多種資料模型,支援不同場景的資料操作,降低研發複雜度。YMatrix 5.0在面向分析和時序場景的執行器、儲存引擎、分散式叢集管理三大方面都是自研。如向量化&新儲存引擎 MARS2,實現了高效能。

比如在時序場景,壓縮比是衡量時序資料庫的重要指標,資料庫基於儲存引擎進行資料的建立、查詢、更新和刪除等操作,海量的時序資料需要高壓縮比節省儲存空間。三一重工泵送研究院泵誦雲平臺大資料負責人褚鳳天在YMatrix 5.0釋出會上介紹,YMatrix在MARS2中提供高壓縮比的儲存方式,可將資料從320GB壓縮至9GB左右,壓縮比達30倍左右。

據悉,YMatrix 5.0 包含了多至138項的效能最佳化,特別是針對寫入和分析等重點領域,進行了深度的指令級最佳化。在架構方面,YMatrix 5.0 將資料庫叢集狀態管理從資料庫 Master 轉移到 etcd 叢集。實現了資料庫叢集元件狀態管理功能與資料庫本身的解耦,同時使得狀態資料實現了高可用。此外,YMatrix 5.0 引入了面向服務的架構,使得資料庫叢集的安裝、執行和維護更加簡單方便。

姚延棟進一步介紹,YMatrix 5.0重寫了整個GP故障檢測和高可用機制,提出了segment set 特性,實現了在擴容的時候對錶的讀、寫支援,幾乎不影響讀寫效能,真正做到了擴容對業務零影響。目前,有些資料庫僅能夠做到擴容過程中支援讀,但不支援寫。

在易用性方面,YMatrix設計了使用者體驗的圖形化installer,只需10分鐘左右就可以完成資料庫叢集的搭建,暴露了100+監控指標,幫助DBA更好地運維。

目前,YMatrix 超融合資料庫已實現商業化,在智慧製造領域取得初步規模化,客戶包括寧德時代、比亞迪、三一重工、理想汽車等製造業頭部企業。與行業共創4大場景方案,包括集團敏捷湖倉、智慧工廠資料基座(邊緣數倉)、高階裝備智慧運營平臺和智慧汽車大資料平臺。

面向未來,姚延棟介紹,後續,YMatrix會在已經存在海量需求的時序場景深耕,嘗試替代傳統資料庫和專用類產品,“資料量大、指標量多的車聯網、智慧製造、智慧能源、智慧城市、智慧園區、智慧醫療等場景會是重要方向。這些場景所產生的業務需求,將最大化體現超融合產品的價值”。

隨著萬物智聯時代到來,在資料技術融合趨勢下,資料庫巨頭和創業公司都在積極探索,時序資料庫方興未艾,超融合架構的創新理念還有待於更多市場檢驗,資料庫的終局還在路上,但是更多真實場景歷練有助於產品的完善與提升,期待YMatrix能有更好的發展。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2921500/,如需轉載,請註明出處,否則將追究法律責任。

相關文章