分久必合?資料庫進入“超”融合時代 | 愛分析調研

YMatrix發表於2023-02-14

回顧歷史,資料庫的發展經歷了從單一到多元的變化。

圖片

上世紀60年代,網狀和層狀資料庫揭開了資料庫系統發展的帷幕;1970年,來自IBM實驗室的Edgar F. Codd發表了《大型共享資料庫資料的關係模型》論文,提出基於集合論和謂詞邏輯的關係模型,為關係型資料庫技術奠定了理論基礎。之後關係型資料庫快速發展,併為整個資料庫生態培育了堅實肥沃的發展土壤。

1993年,Codd進一步提出聯機分析處理(OLAP)的概念,分析型資料庫的概念也由此正式誕生,關係型資料庫逐漸分化成為事務型、分析型兩大類。

進入21世紀,網際網路蓬勃發展,資料量爆炸式增長、資料型別也極大豐富。關係型資料庫逐步遇到發展瓶頸,如容量有限、在高併發下讀寫效能低、不適合海量半結構和非結構化資料,等等。因此,一線網際網路公司開始破舊立新。谷歌在2003至2004年公佈了關於GFS、MapReduce和BigTable的三篇技術論文,極具里程碑意義。其中GFS和MapReduce奠定了分散式資料系統的基礎,Hadoop由此應運而生,並快速發展成熟。以Hadoop為基石的大資料生態圈,主導了二十一世紀第一個十年的技術潮流。

而谷歌BigTable與亞馬遜的DynamoDB的推出,開啟了大資料技術的另一個重要分支NoSQL,並出現了針對不同資料型別的NoSQL資料庫,如鍵值資料庫、文件資料庫、圖資料庫、時序資料庫等。這些專用資料庫很好地解決了針對特定資料型別和應用場景的資料儲存和處理問題,迎來了快速發展。

至此,資料庫行業進入百家爭鳴的時代。

01

數字化轉型時代,資料庫開啟融合新篇章


技術不斷髮展迭代的背後,更本質的是不斷演變的需求。資料規模、資料型別、業務場景、總體擁有成本等因素的改變,都驅動著資料庫技術和形態的進化。當前,人類社會已經從以人為核心的網際網路時代,邁進了萬物智聯的數字化轉型時代,而作為承載資料的基石 —— 資料庫系統也醞釀著新一輪的變化。

數字化轉型時代,資料在各行各業間的分佈發生了顯著變化。 傳統行業積極擁抱數字化轉型,創造和擁有更大規模的資料,並將資料作為關鍵的生產要素之一,驅動業務的經營分析和決策。 他們逐漸成為資料庫行業的“關鍵使用者”。

一方面,與網際網路企業相比,傳統行業使用者的技術能力和對資料基礎設施的投入都相對有限,特別是在技術引入的初期,因此,要求資料庫具備更低的技術門檻、更便捷的使用體驗和更低的建設成本。

另一方面,傳統行業的業務複雜度更高,生產流程長、環節多,擁有龐大的實體資產,供應鏈上下游的協作依賴更深。因此,傳統企業面臨的資料應用場景也非常多元,如BI報表、實時決策、基於機器學習的預測性分析等;同時,資料體量和多樣性也在快速增長,尤其是隨著物聯網應用的落地,像時序、GIS、影像、影片、文字等新興資料型別大規模湧現。

為了滿足上述多元化的資料處理與分析需求,企業通常需要分別建立一系列獨立的系統。以一個典型製造企業的系統建設為例,MES、ERP等業務系統都會對應一套獨立的關係型資料庫;面向IoT資料處理則會建設一套專用的時序資料庫;如果有圖資料分析等更多資料場景,還會疊加更多的專用資料庫;而為了實現資料探勘,又會建設一套大資料系統……如此疊床架屋,一層套一層。複雜的資料平臺架構給企業帶來高企的成本和一系列麻煩:面對多種技術和產品,選型工作繁重;開發和運維多套系統,複雜度攀升,人員和IT基礎設施成本激增;資料多處分佈,導致資料孤島和資料質量問題,整體執行效率低,穩定性差等等。

如何解決這些新時代的挑戰?將多種資料庫的能力進行融合,讓資料庫變得更加“全能”且“易用”,從而降低資料庫技術棧複雜度和技術門檻,是最直接的解決方案。資料庫和大資料廠商紛紛嘗試多種技術融合的路徑,在近十年資料庫的創新融合趨勢中,最典型的融合體現包括:NewSQL、HTAP、湖倉一體。

  • NewSQL: OLTP+大資料的融合。NewSQL將傳統關係型資料庫與分散式架構融合成,支援SQL、ACID以及彈性伸縮。最早的NewSQL資料庫Cloud Spanner由Google於2012年內部發布,以MemSQL、ScaleDB為代表。

  • HTAP: 混合事務分析資料庫,OLTP+OLAP的融合。HTAP的概念由Gartner於2014年提出,透過行列儲存、大規模並行處理技術、資源隔離等核心技術實現同時滿足事務類、分析類的業務需求,以Azure SQL、TiDB為代表。

  • 湖倉一體: OLAP+大資料的融合。湖倉一體由Databricks於2020年提出,充分融合資料湖和資料倉儲的優勢,構建可以儲存結構化資料、半結構資料和非結構化資料的資料湖能力的同時,又繼承了資料倉儲的資料處理和管理功能,實現資料和計算在湖和倉之間自由流動。

可以看出,無論從需求側還是從技術側來看,資料庫都進入了融合發展的新時代。需求側在經歷了“量”的跨越式增長後,迎來“質”的變化,對資料庫的形態、體驗和成本都提出了新需求;而技術側也緊貼需求,不斷推陳出新,嘗試新的突破。整個行業在螺旋式上升,那麼資料庫融合發展的下一個階段,將走向何方?

我們看到, 市場中已經出現一種更為徹底的資料庫融合形態——超融合資料庫,不僅支援多型別資料(關係型、時序、GIS、文件型、圖型、鍵值型等)的統一建模和儲存,也支援對多型別資料進行統一的查詢和分析操作。除了能以同樣的方式將各類資料寫入,也能透過同樣的方式讀取分析這些資料,在使用體驗上也實現了融合一致。同時,作為企業級產品,超融合資料庫還需要滿足各場景下的效能要求。

可以認為,超融合資料庫,是指在統一平臺下、在全量全域資料範疇內,實現:多模資料融通+ 基於SQL等通用語言的全場景查詢分析+高效能與易用性。

圖片

  • 多模資料融通: 超融合資料庫首先會支援多種資料型別,包括:關係型資料、時序資料、GIS資料、JSON資料、圖資料、文字資料等主要資料型別,並且在一套資料庫內對多模資料的統一管理、查詢與跨模態互通,實現資料在庫內的歸集、融通與整合分析。

  • 基於SQL的全場景查詢分析: SQL語言作為最為經典的資料查詢語言,其易用性和普及度有目共睹。歷史上也有過放棄SQL的技術路線,但最終又都紛紛迴歸。歷史證明,SQL是資料分析與查詢的全球共識語言,也是保障平民化與普適性的基石。基於SQL,超融合資料庫應該儘可能多的支援各類場景下的查詢分析能力,如針對時序資料的視窗查詢及聚合查詢等,多表間的Join查詢等,甚至需要支援AI機器模型的訓練。

  • 高效能與易用性: 效能保障是一切功能特性的先決條件。超融合資料庫需要提供足夠的效能和可靠性保障,以應對超大規模容量、超高壓力寫入、各類資料接入場景、實時近實時分析查詢的帶來的業務挑戰。同時,能夠提供統一的監控、告警、自動化運維及視覺化UI,大幅度減輕日常部署運維的作業強度。

02

代表廠商YMatrix的超融合資料庫實踐


用一個強大的“超融合資料庫”一站式解決多種問題,是一種理想狀態。一個普遍的質疑是:一款資料庫如何既做到對多種資料型別和應用場景的融合,又做到媲美專用資料庫的優秀效能?只有在真實業務場景下的落地實踐,才能證明其可行性。

在超融合資料庫的實踐方面,YMatrix無疑是目前市場上最具代表性的一家廠商。為了探討超融合資料庫的發展趨勢和實踐進展,近期, 愛分析對YMatrix進行了調研,並對YMatrix創始人&CEO姚延棟先生進行了訪談。

圖片

YMatrix成立於2020年8月,至今已經獲得總規模超億元的四輪融資,投資方包括晨山資本、順義產業基金、某頭部雲廠商、東方富海、中科創星、清華啟迪等。YMatrix的團隊在資料庫核心引擎開發方面擁有深厚的積累,創始人&CEO姚延棟曾擔任Greenplum北京研發中心總經理,歷經10年從0到1組建Greenplum中國研發團隊,並帶領團隊將Greenplum打造為世界前列的資料庫。

基於對資料庫融合的技術趨勢,以及物聯網時代時序資料爆發的堅定判斷,YMatrix在成立伊始就錨定了超融合資料庫方向,並選擇先從時序資料庫切入。

2021年7月,YMatrix釋出了超融合時序資料庫MatrixDB4.0。經過持續打磨,YMatrix於今年10月26日正式釋出了升級版的超融合資料庫YMatrix5.0,該版本的迭代重心在“超融合”層面,並實現了一系列效能和易用性的最佳化。其內建高效能微核心資料引擎,實現了對關係型資料、時序資料、JSON資料、鍵值資料、GIS資料、文字資料的廣泛支援,並在資料操作層面支援以標準SQL實現跨資料模型的寫入、建模、聯合查詢以及機器學習等。

圖片

基於這些特性,YMatrix超融合資料庫的適用場景廣泛,尤其適用於OLAP和時序資料處理的場景,如工廠資料基座、智慧網聯汽車、物聯裝置智慧運營、實時資料倉儲等。目前,YMatrix已經服務寧德時代、三一重工、理想汽車、小米、比亞迪等多家大型企業,驗證了其產品和服務能力。
以YMatrix服務國內新能源巨頭的案例為例。該企業原有資料平臺架構較為複雜,包括承載業務分析資料Greenplum數倉叢集、承載時序資料的MySQL + Greenplum,以及Hadoop大資料平臺等。這些系統普遍存在功能和效能層面的不足,且整套體系開發成本高、運維複雜,無法支撐該企業長期發展對資料管理的承載力、效率、成本和易用性的要求。

為了解決上述問題,該企業基於YMatrix替換原有叢集搭建了製造大資料平臺,承載傳統業務的關係型資料,最佳化了效能,並承載時序資料,補全了時序場景分析能力;基於YMatrix搭建了分支工廠的獨立數倉平臺,構建總部(雲)和工廠(邊)協同架構,有效降低了集團叢集的負載;此外,以YMatrix架構替代了Spark及MySQL叢集,承載售後大資料分析系統,大幅簡化了系統架構,提升了效能。藉助YMatrix的架構升級,該企業獲得了以下收益:

  • 整體上提升了效能,為應對業務量大規模擴張奠定基礎。

  • 基於YMatrix超融合資料庫對多模資料綜合分析需求的支援,能夠服務該企業未來5-10年的潛在需求,避免不必要的架構調整和投資浪費。

  • 資料管理成本獲得有效控制,叢集規模節省超30%,且節約了對新產品、新架構的學習成本。

  • 基於YMatrix提供的大量圖形化及自動化的運維能力,以及系統架構的精簡,大幅提升了使用體驗,降低了運維複雜度。

透過YMatrix的實踐可以看到,超融合資料庫正在從一種概念設想轉變為真正的落地應用。隨著技術的持續迭代,以及應用場景的擴充套件和滲透,未來,超融合資料有望在資料庫市場中佔據越來越大的份額,成為企業資料基礎架構的重要選擇。

以下是本次愛分析對姚延棟先生訪談內容的精選。

愛分析:您如何理解超融合資料庫?為什麼選擇這個方向創業?

姚延棟: 我們觀察到,最近這10年資料庫領域出現了明顯的融合趨勢,如NewSQL、HTAP、Lakehouse等,都是某種融合的體現,這是一個融合的時代。

那麼,未來資料庫的融合趨勢會如何演進?我判斷未來是一個超融合的趨勢,並在2020年就提出了“超融合”這個概念,這裡的超融合是指實現“OLTP+OLAP+大資料”三者的融合。

為什麼我覺得超融合一定是資料庫的未來?以手機為例,在智慧手機出現前,功能手機只能接聽電話,拍照、聽音樂則需要用照相機、MP3。隨著智慧手機的出現,這些單一功能在智慧手機這個平臺上實現了融合。這個例子背後反映的是技術從簡單到複雜,再到升維後簡化的客觀發展規律,資料庫技術的發展也必然符合這樣的規律。

從客戶需求的角度,也能進一步驗證超融合這個趨勢。實際上,客戶需求也是我們創業的出發點。具體來講,做資料庫是一件長期的事情,單產品研發就可能耗費3-5年的時間,所以我們創業需要首先判斷未來時代發展的大機會在哪裡。

顯然,未來的時代是物聯網+數智化轉型的時代,而這個時代的使用者主體是廣泛的傳統企業。當前傳統企業資料庫體系複雜,建設和維護需要大量的人力、時間和資金成本,相較之下,購買能夠直接解決大部分場景需求的超融合資料庫產品,價效比更高。我們預見,未來企業對超融合資料庫產品有強需求,而超融合資料庫也將以更具競爭力的成本優勢、更快的速度和更好的創新方式賦能各行各業。

愛分析:YMatrix創立之初,為什麼選擇以時序資料庫作為超融合資料庫的切入點?

姚延棟: 上面提到,我們的第一個判斷是未來將會是萬物互聯和企業數智化轉型的時代。在這個時代,最大的新變數就是時序資料,並且時序資料將快速增長成為主體資料。那麼從產品端,我們該如何支援時序資料?

對此,我們做了第二個判斷:時序的主要場景是分析,分析的主體資料是時序,針對時序資料的分析功能一定要做。這就是為什麼我們沒有做諸如InfluxDB這類效能顯著,但不具分析功能的時序資料庫產品,最終選擇面向分析場景的Greenplum的分散式架構,並採用關係型資料庫PostgreSQL作為核心引擎研發超融合時序資料庫。當然,還有一個額外的顯而易見的優勢,就是我們的創始團隊具有10年以上Greenplum研發經驗。

愛分析:YMatrix的資料庫產品目前實現了怎樣的“超融合”?從技術上是如何實現的?

姚延棟: YMatrix採用了一種創新的技術架構,我們稱為“多微核心開放架構”。就像CPU有多個核一樣,現在資料庫也可以是“多核”的。每個核心由不同的儲存引擎和執行器組成,而這些都是針對場景最佳化過的。比如我們專門針對時序場景的微核心,其中包括自研的MARS2時序儲存引擎,以及經過向量化最佳化的執行器。目前我們提供三種微核心,分別面向TP、AP及時序場景,裡面有很多專項的最佳化,也有一些複用的部分。基於這種架構可以讓我們非常方便的進行場景擴充套件,比如未來針對某類新興資料型別,我們只需要是針對新的場景研發一款新的微核心,而不是從頭到尾再重新研發一整套資料庫,效率將大幅提升。

愛分析:與專用資料庫相比,超融合資料庫為了做到功能上的融合,是否會犧牲效能上的表現?

姚延棟: 不會,效能也是我們產品一直在打磨的方向。本次釋出的5.0版對效能進行了全面最佳化,實現時序場景的寫入及查詢、單表查詢、多表關聯分析、機器學習以及OLTP等全場景處理效能的跨越式提升。

每個場景我們都有真實的測試資料作為證明:

在時序場景的寫入能力上,YMatrix5.0在真實的生產場景中寫入速度可達1.52億資料點/秒。而通常一個工廠的資料點大概在10萬點以內,1.52億是工廠場景規模的1500倍;

在時序場景的查詢效能上,對比時序資料庫獨角獸TimescaledDB耗時是YMatrix的5.1倍;

在單表查詢效能上,SSB基準測試結果表明YMatrix超融合資料庫比ClickHouse快27%;

在多表關聯分析效能上,對比MPP資料庫主流廠商Greenplum,YMatrix實現了數倍的效能提升;

在機器學習場景效能上,YMatrix庫內機器學習效能相比Spark提升了8倍;

在OLTP場景下,TPC-B國際標準測試結果表明,YMatrix超融合資料庫主鍵查詢TPS高達160萬,而絕大多數低於TPS5萬的水準。

愛分析:目前YMatrix的商業化應用場景有哪些?服務了哪些客戶?

姚延棟: YMatrix超融合資料庫的應用廣泛,尤其適用OLAP和時序資料處理的場景,如車聯網、智慧製造、智慧能源、智慧交通、智慧城市等領域,可應用於工廠資料基座、智慧網聯汽車、物聯裝置智慧運營、實時資料倉儲等場景。目前YMatrix已經服務了寧德時代、比亞迪、三一重工、理想汽車、小米等多家大型企業。

另外,YMatrix還非常適合有“選擇困難症”的客戶。客戶經常由於業務變化出現資料庫新需求,比如時序資料庫、分析型資料庫或是湖倉一體等。YMatrix支援時序場景、分析型場景,能根據客戶需求靈活應用。而且未來如果客戶資料體量迅速擴增到更高階別比如10PB,而客戶基於成本考慮不想再購買新資料庫時,就可以使用YMatrix倉下建湖的能力,在架構底層搭建S3和HDFS進行海量資料儲存。所以客戶如果面向當下場景有資料庫選型困難的問題,面向未來業務場景有需求變化的風險,那麼用YMatrix做起步是最合適的方案。

愛分析:在資料庫融合趨勢下,市場上也有很多廠商推出了“多模資料庫”。YMatrix超融合資料庫與多模資料庫的區別是什麼?

姚延棟: 市場中提的“多種模式”實際上是指多種資料型別,並沒有多個儲存模型或者資料模型。多模資料庫實現的是多資料型別的儲存,但當應用時,多種資料型別會出現儲存空間佔用高、協同速度慢以及查詢難最佳化等問題,缺失操作層面的融合。多模資料庫和YMatrix超融合資料庫的區別是多模實現的只是YMatrix的底層儲存層,YMatrix還實現了上層資料操作層面的融合,支援基於SQL的全場景查詢分析和機器學習建模分析。

愛分析:怎麼看未來超融合資料庫的發展前景?

姚延棟: 我認為,未來所有的資料庫都會嘗試往融合方向發展,因為專用資料庫只有做到在單場景下效能比通用資料庫快10倍,才能有生存空間。預計到2025年左右,超融合資料庫就會成為主流。

YMatrix超融合資料庫由於繼承了資料庫領域中優秀產品的成功經驗,效能比多數專用資料庫優良,對比之下,一些專用資料庫廠商還需要在資料庫領域多積累經驗,持續吸收學習後才能在資料庫領域佔據一席之地。

愛分析:下一步,YMatrix在產品研發和商業化等方面有哪些規劃?

後續,我們會在已經存在海量需求的時序場景深耕,嘗試替代傳統資料庫和專用類產品。資料量大、指標量多的車聯網、智慧製造、智慧能源、智慧城市、智慧園區、智慧醫療等場景會是重要的方向。這些場景所產生的業務需求,將最大化體現超融合產品的價值。

本文為  YMatrix 原創內容,未經允許不得轉載。

欲瞭解更多超融合時序資料庫相關資訊,請訪問   YMatrix 超融合資料庫”   官方網站

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70026708/viewspace-2935286/,如需轉載,請註明出處,否則將追究法律責任。

相關文章