資料技術大融合,HSTAP資料庫有多少想象空間?

qing_yun發表於2022-08-09

編者按:目前,HTAP資料庫成為資料庫領域最熱門的話題之一,Gartner分析師甚至指出,HTAP已經成為新一代資料庫的入場籌碼,HTAP為什麼會火起來?如何實現HTAP能力?HTAP下一步是否會向著超融合HSTAP方向演進?整個資料技術棧是否會像十年前iPhone整合掉MP3、手機通訊、相機等一樣,被一個資料平臺整合?本文透過採訪相關專家對上述問題進行探討。

天下大勢分久必合合久必分,資料技術亦是如此。

千禧年後隨著資訊化和數字化發展,資料技術走向繁榮,百花齊放。近年來,隨著數字化轉型深入,資料價值愈發凸顯,資料技術出現了融合趨勢。比如,軟硬一體,湖倉一體,HTAP資料庫等等。

近兩年,我們看到市場上除了火熱的HTAP資料庫,還出現了HSTAP資料庫和HTSAP資料庫的說法,多出來的S是什麼?是新瓶裝舊酒?還是資料技術融合下的新探索?

火熱的HTAP亂花迷人眼

“在繼分散式、NoSQL/NewSQL之後,國內資料庫技術界的當紅炸子雞,非雲原生、HTAP莫屬。”去年DTCC2021中國資料庫技術大會後,一位專家如此寫道。

HTAP是TP與AP的融合,希望用一套系統,解決使用者的TP和AP需求,這一資料庫的融合趨勢,不限於中國,在全球都是一樣的來勢洶洶。比如,2022年 5月,Google Cloud 釋出了主打HTAP的雲端資料庫AlloyDB, 6月,Snowflake釋出了行儲存引擎Unistore,正式進軍HTAP。此前,包括MySQL釋出Heatwave,增強分析能力,也是加入了HTAP大戰。

Gartner分析師甚至指出,HTAP已經成為新一代資料庫的入場籌碼,HTAP能力成為資料庫必備選項。信通院在7月中旬也啟動了首批“可信資料庫”-HTAP資料庫產品評測……

2014年Gartner對HTAP資料庫給出了明確定義,即需要同時支援OLTP和OLAP場景,基於創新的計算儲存框架,在同一份資料上保證事務的同時支援實時分析,省去費時的ETL過程。也就是說,支援混合負載的資料庫能夠避免傳統架構中線上與離線資料庫之間大量的資料互動,同時也能夠針對最新的業務資料進行實時統計分析。

HTAP火熱的背後是需求推動,越來越多的實時分析場景出現,比如,金融業中對實時性要求較高的風控、實時賬單、實時促銷等業務場景,以及新一代Web3.0、NFT、區塊鏈等對實時資料敏感的領域。在原來的架構下只能支援T+1或者T+N分析,已經不能滿足需求,而省去ETL的HTAP資料庫可以實現T+0的實時分析。

通常來講,實現HTAP可以分為兩大類,第一大類是將現有的 TP 與 AP 包裝,透過一些中介軟體的方式將其連線起來再做封裝,以類似中臺的方式封裝實現。比如,TP用了MySQL,AP用某資料倉儲或者資料湖,中間用Flink串起來,且對使用者透明,包裝成一個相對比較統一的管理介面。實現起來容易,但是元件多,成本高。第二大類,融合架構,拋棄現有的 TP 與 AP 獨立架構,從底層儲存開始就將 TP 與 AP 的引擎融合起來,形成一套系統。為了避免線上實時讀寫與批處理作業之間的資源干擾,HTAP混合負載型資料庫通常使用讀寫分離或記憶體處理技術實現。一般來說,分散式資料庫的多副本架構天然支援讀寫分離技術,而基於傳統架構的資料庫往往採用記憶體處理技術進行實現。不過,融合架構下的HTAP資料庫也是亂花漸欲迷人眼。

矩陣起源CTO張穎峰認為,在數字化轉型浪潮中,資料庫將扮演比以往更為重要的角色,在資料技術融合的大趨勢下,現在的HTAP還有不足,矩陣起源提出了超融合HSTAP資料庫的定位,多出來的“S”又是什麼?

融合的下一站是HSTAP?

“為什麼要加S呢?是指使用者使用TP和AP時的資料結構和能力要求不一定相同,一定要有東西在這兩者之間做橋樑。”張穎峰介紹,在挖掘資料價值過程中,資料庫是企業資料資產或者資料平臺的組成基礎,如在一個資料中臺中,使用者需要基於OLTP(通常來自業務中臺)的表做ETL工作,Join成寬表儲存到OLAP用來做互動式分析。為什麼要有寬表呢?這有兩方面的原因:其一是分析師建模方便,其二是增加許多維度欄位,提升查詢效率。在這種場景下,以Flink為核心的資料流處理,成為了串起上下游的核心引擎,而其中的典型操作,就是Stream Join,把多個表實時連線成一張表儲存到目標資料庫,進一步資產化。單純的HTAP,通常只能用於實時分析,無法滿足這種通用場景的要求。

矩陣起源所提的HSTAP中的“S”指的是串聯AP和TP的Streaming能力,即在HTAP資料庫內部實現了資料庫內建流處理能力。透過一種創新的架構實踐極簡理念,把資料庫的複雜度留給產品的研發階段,而把簡單、易用、好用的最終體驗帶給使用者。

“我們定義的HSTAP是指,在這個平臺裡面,無論是TP還是AP負載,使用者都可以隨心所欲地去建立各種表,也可以隨心所欲用一個流,用類似於流的語法,把各種表連起來。”張穎峰強調。比如使用者希望對訂單明細表進行分析,需要Stream Join成一張寬表。那麼,隨著有訂單明細表的資料更新,寬表也將自動更新,但是不用維護該更新機制。即把使用者的ETL工作內建到資料庫當中,這樣就讓一個資料庫同時具備AP、TP和S(流)的能力。

在矩陣起源團隊看來,當下的資料棧,包括資料庫、資料倉儲、資料湖,這些本身就不應該如此割裂。之所以割裂,這裡面有技術的因素,也有歷史因素,同時具備TP、AP、流三者能力的HSTAP會幫助客戶徹底打破資料孤島問題,成為企業將來的智慧化核心資料基礎設施。“HTAP、流批一體、湖倉一體,這些新的技術趨勢都可以包含在HSTAP的範疇內。”張穎峰指出。

有人對此會有疑問,HTAP還沒有做好,去做HSTAP不是天方夜譚、痴人說夢嗎?

矩陣起源Global CTO田豐指出,實現一個HSTAP有兩方面的挑戰,一是架構方面的取捨。使用一款開源和成熟的資料庫來擴充套件,會比較穩定而且容易快速推出產品,但有非常沉重的歷史包袱,無法應對未來新型應用和基礎設施的需要,因此MO(MatrixOne縮寫)決定自己從頭開始研發。 二是如何實現不同負載的資源隔離以及高效的資源分配。在這一點上,MO創新性的提出了儲存、計算和事務分層解耦的架構,使得資源分配可以隨著各種負載的變化高效分配,並可以做到單種負載的獨立擴充套件。

MatrixOne願景架構圖

去年成立的矩陣起源,其核心創始團隊成員都是資料庫領域的資深人士,公司創始人&CEO 王龍,曾在騰訊雲擔任副總裁,對資料庫有著獨特的見解和洞察。Global CTO田豐博士師從資料庫元老David DeWitt,多篇論文入選資料庫頂會SIGMOD、VLDB。公司CTO張穎峰經歷過網際網路大廠,並在大型企業擔任過技術負責人,深耕後端分散式儲存等技術,既懂甲方也懂乙方。去年該公司接連獲得兩輪融資,獲得資本的青睞。

從資訊化到數字化,幾十年來,資料技術棧不斷豐富,從資料庫、資料倉儲、資料湖、湖倉一體,到流處理引擎Flink、批處理引擎Kafka等,由於技術以及歷史發展等多種原因,很多企業都以搭積木的形式積累了豐富的IT資產。如今資料技術走向了大融合,比如湖倉一體、HTAP,以及矩陣起源提出的HSTAP。很像十年前,iPhone智慧手機的出現融合了通訊、音訊MP3、影片MP4、相機等。如今,MP3已經消失,MP4演化為iPad等繼續活躍,便捷的智慧手機替代了大部分專業相機和MP3的使用場景。

資料技術的超融合是否會像智慧手機一樣發生?

田豐認為,像智慧手機一樣,未來企業資料平臺的融合是一個趨勢,現在一個企業可能有MySQL、SQLite、Oracle、Spark、Flink、Clickhouse等多種資料庫或者資料處理技術,而在未來一個公司所有資料或者大部分資料都會集中在一個整合的、簡單易用、易運維、高價效比的資料平臺上,最大程度保證資料的安全和可靠,同時降低應用開發和管理的難度以及複雜度。不過由於過去數十年很多大企業已經積累了十幾種甚至更多的IT系統,整合的過程是漫長和曲折的。矩陣起源希望並相信MatrixOne這樣的超融合資料庫會是一個理想的載體。

相比於消費級的智慧手機,作為數字基礎設施的資料庫,其替換難度和成本都太高。而且沒有任何一套架構或者一套系統能夠打遍天下,企業也不希望系統過重造成供應商鎖定。田豐強調,MatrixOne並不是封閉的,而是會積極融入到開放的資料技術生態中,比如企業已經部署了Flink計算引擎,MatrixOne會與之適配。但企業新建一個業務系統,MatrixOne會是好的選擇。正是因為秉持開源開放的原則,MatrixOne從一開始便選擇了開源。

一個好的資料庫是用出來的,資料技術融合趨勢不可擋,HSTAP這個新理念未來會在更多實際場景中驗證、發展和成長。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2909574/,如需轉載,請註明出處,否則將追究法律責任。

相關文章