2022DTCC資料智慧 :天雲資料Hubble AI-Native資料庫混合儲存之列存

丸喵喵發表於2022-12-16

2022 年12月14日~16日,由IT168聯合旗下ITPUB、ChinaUnix兩大技術社群主辦的 第13屆中國資料庫技術大會(DTCC2022)線上直播。大會以 資料智慧 價值創新 為主題,設定20+技術專場, 重點圍繞時序資料庫、圖資料技術、實時數倉技術與應用實踐、雲原生資料庫、大資料平臺與資料安全等內容展開分享和探討,為廣大資料領域從業人士提供一場年度的饕餮盛宴。 天雲數 據受邀參加做“ Hubble AI-Native 資料庫混合儲存之列存 主題分享。

從資料庫的發展歷程來看:IOE體系資料庫利用位於系統中心的伺服器統一管理所有的共享資源,並處理來自使用者的請求,是面向資料結構的融合;分散式資料庫是對IOE體系資料庫的最佳化升級,是面向物理資源的融合;HTAP資料庫滿足網際網路的資料產銷合一方式帶動了流程驅動向資料驅動的資料庫架構轉型,是面向IO資源的融合;而AI-Native資料庫透過更多的邏輯計劃豐富資料消費能力和形態,是面向服務的融合。 雲資料分散式平臺負責人喬旺龍從混合儲存之列存講如何做資料底座。

資料底座為什麼一定是混合儲存的HTAP資料庫?

網際網路的資料產銷合一方式帶動了流程驅動向資料驅動的資料庫架構轉型。交易、分析的兩階段體驗,以及大屏小屏化個性化服務下沉。 基於創新的計算儲存框架,HTAP資料庫能夠在一份資料上同時支撐OLTP場景和OLAP場景。 

那麼在HTAP出現之前,應對以上的剛需市場是怎麼做的? 把TP和AP做融合,成為湖倉一體的概念;然後把MPP資料庫與湖倉一體融合,成為新技術趨勢。實際上就是將MPP資料庫加Hadoop開源。

這種現象會帶來什麼風險? MPP 資料庫不能單獨支援湖倉一體,它需要 Hbase 和 ES 來配合,本質還是屬於資料集。在某大型股份制銀行,為了支援手機銀行端的個性化數倉,傳統 MPP 結構根本沒法滿足剛才說的這種服務價值,要實現手機端對大屏小屏化的趨勢,還要配套數百個節點,所以現在市場上的湖倉一體本質上還是一個整合方案,需要在傳統MPP資料庫和開源hadoop之間做大量的資料同步和一致性校驗。既然要有資料同步,就必然有時間視窗,資料的不及時性、不一致性。

這不是簡單的替代邏輯,是產業鏈升級邏輯。 面向新興的大資料領域,新興的資料庫依然扮演著重要角色,不僅僅可以對傳統資料庫Oracle做碾壓替代,同時還能夠勝任大資料領域的剛需。而在整個流批一體的市場需求上,Hubble資料庫的自身定位就具有天然優勢。

國產原創Hubble資料庫,提供統一支撐事務處理和工具負載分析。 如何能夠在同一資料庫例項下,同時支撐高併發低延遲的OLTP事務,和海量密集計算的OLAP分析作業?天雲資料憑藉其多年來在大資料分散式計算領域的經驗以及多家大型銀行的實踐最終透過引入損失函式動態評價SQL邏輯計劃的執行成本、CBO代價最佳化解析、Sharding切片執行緒級別物理資源匹配不同計算負載、TP和AP雙引擎排程執行、隨機和序列化IO對儲存的訪問、依靠資料副本機制同時支援KV鍵值儲存和列存儲存交出了完美的答案。這意味著一張表可以同時支援行存和列存,真正的融合了儲存結構,避免了在交易和分析資料庫間每夜ETL資料搬家的繁瑣運維工作和資料冗餘。 

時序資料庫也好,圖資料技術也罷,能夠提供AI化能力的資料庫是一個必然要走的路徑

2016 年,   Everything Embedded™ 論文指出,在資料科學麵前,一個文字不同的詞就是不同的向量,向量的尤拉夾角、弦距離都是可量化的,在演算法面前都是結構化了。因此,多模態概念在資料科學領域已經漸漸地被洗牌掉很多了。不同的邏輯計劃,無論是支援二維表結構還是Graph、圖計算的相鄰矩陣還是機器學習特徵工程的統計、計算指標,其實都是一個邏輯計劃的組合。就是你的資料庫、你的計算引擎、儲存引擎,除了支援標準的SQL邏輯計劃,是不是還可以支援Graph、支援Machine Learning。

以時序資料庫為例,時序資料庫是資料庫的第三階段,解決的是IO融合的問題。 主流的時序資料庫都是LSM-Tree,而HTAP面向列的AP操作大量都是LSM-Tree的變種,因此面向IO的問題HTAP就完全覆蓋了。時序資料庫服務能力表達是以均勻的時間戳再去以IO的方式壓入資料,它回溯的方式是以時間戳來還原資料,就像看錄影帶一樣快進、快進、快進。

但今天在抖音上輸一個標籤就能把內容找出來,這意味著什麼? 現在解決時間序列的方法有很多種,從最早的隱馬爾可夫鏈到現在的LSTM長短記憶演算法,還有 Transformer框架都是時間序列的。這就意味著如果有AI化的能力對資料的表達,基於時間序列的表達,比如工業日誌、感測器網路,可以不僅僅用均衡的時間戳來描述資料了,還有Attention框架的一些能夠從權重重點要素裡的抽取資料的能力, 所以這就是為什麼我們還要提AI-Native資料庫。

HTAP 資料庫已經在IO和架構層級上覆蓋了時序資料庫的優勢,升級到AI-Native資料庫的時候還會有更多的能力更多的演算法框架去附帶時序資料庫的均勻時間分佈的方法。 還是看錄影為例,現在不用快進、快進、快進、快進了,而是可以透過一個關鍵詞去回溯和索引,這些能力都是AI的框架。

網際網路帶來了產銷合一,越來越多的資料並不是面向宏觀趨勢的供給,做報表、做管理駕駛艙、做儀表盤、上大屏,供給領導決策分析。網際網路帶來了個性化服務,淘寶推薦引擎、千人千面個性化結果,他要跑的是貝業斯網路、是協同過濾演算法,是這些演算法再替代SQL的視覺化服務。

所以怎麼能夠在同一個計算的庫體上,面向機器學習的操作面向新興的資料驅動業務的演算法?AI內生資料庫是一個必然要走的路徑。 尤其是應對產業網際網路,第三波的機器資料生產,更多的物聯網的機器生產、感測器,他的機器資料物理意義人理解越來越難,比如油壓、溫度、結蠟、工況都是一些科學屬性。這些資料它很難用決策,因為它對人類來說需要更強的科學知識才能去理解。所以將會是機器生產資料,機器消費資料。


來自 “ 天雲資料 ”, 原文作者:天雲資料;原文連結:https://tech.it168.com/a2022/1216/6781/000006781132.shtml,如有侵權,請聯絡管理員刪除。

相關文章