AI 時代,需要怎樣的資料庫?10月23日,獨立資料庫廠商OceanBase在2024年度釋出會上推出OceanBase 4.3.3GA版本,升級向量檢索與索引功能,實現SQL+AI一體化。該版本深度融合AI與資料庫處理能力,支援多模態資料的融合查詢,幫助企業簡化AI技術棧,提升AI應用構建效率。
CEO楊冰表示,OceanBase持續踐行一體化產品戰略,為AI時代打造易用、好用的資料底座。
楊冰:一體化資料庫是AI時代的資料底座
隨著AI技術發展,越來越多的AI應用不再侷限於純文字來生成回答,涉及的資料型別日益複雜,並且常儲存於IT架構的不同資料庫中,這對資料庫提出了新的要求,包括提升效能與響應速度,要求資料庫處理和儲存不同型別的資料,並支援結構化、半結構化及非結構化資料的複雜融合查詢。
楊冰認為,伴隨著網際網路/移動網際網路時代向AI時代演進,資料庫也正從分散走向統一,一體化資料庫將成為AI時代的資料底座。如何透過一個統一的資料庫來處理所有型別的資料,並透過向量融合查詢能力,讓小團隊也可以快速構建AI應用,是OceanBase一體化產品戰略在AI時代的核心思考。
會上,楊冰演示了一個叫“望小京”的AI Agent Demo,請“望小京”推薦兩公里內、評分4.5以上、人均消費25元以內乾淨衛生的奶茶店。他介紹,這一Demo以OceanBase為資料底座,管理和處理結構化、半結構化以及非結構化資料,完成空間查詢、關係過濾、向量計算等工作,為AI實時查詢提供支援。
“以往構建一個複雜的AI應用,需要依賴多個不同的資料庫、管理非常複雜的技術棧,同時還需要一個經驗豐富且規模較大的團隊。”他介紹,正是因為OceanBase具備一體化能力,才得以透過一個資料庫高效處理所有查詢、並透過極簡架構就可以完成資料管理和AI應用開發。以OceanBase為底座的“望小京”僅依靠幾位工程師、用一週時間就開發完成。
未來,OceanBase將成為螞蟻集團的AI資料新底座,支援AI生活管家“支小寶”、AI金融管家“螞小財”、AI健康管家三大AI應用,及支付寶百寶箱智慧體開發平臺的資料管理。
OceanBase 4.3.3釋出,增加向量能力
面對AI時代提出的全新挑戰,OceanBase持續推進技術升級。在釋出會上,OceanBase推出4.3.3版本,這也是其面向實時AP場景的首個GA版本。
OceanBase CTO楊傳輝介紹,OceanBase 4.3.3在向量融合查詢的關鍵能力上取得了顯著突破,推出全新的向量檢索功能,實現SQL+AI一體化,深度融合AI與資料庫處理。
具體而言,在對多模態資料的支援層面,4.3.3進一步擴充套件了對複雜資料型別的處理能力,新增Array型別,並對Roaringbitmap型別資料的計算效能進行了最佳化,為企業處理多樣化資料結構提供更高的靈活性。
在向量融合查詢能力上,4.3.3新增向量檢索能力,支援向量資料型別和向量索引,並基於向量索引提供強大的搜尋能力。使用者可透過SQL及Python SDK等方式靈活呼叫OceanBase的向量檢索能力,同時結合對海量資料的分散式儲存能力、多模資料型別及多型別索引的支援,極大簡化AI應用的技術棧,助力企業高效構建AI應用。
在多工作負載方面,OceanBase 4.3.3對AP(分析處理)場景進行大幅效能最佳化,尤其是在海量資料分析時,能夠提供更短的響應時間和更高的吞吐能力。同時,4.3.3引入了列存副本的新形態,實現滿足 TP 和 AP 負載的物理資源強隔離。該物理隔離機制可確保系統在處理事務型負載時,不受分析型負載的影響,特別是在實時資料分析和決策場景中,能夠保持系統的高效能與穩定性。
釋出會上,OceanBase與螞蟻集團聯合開發的向量庫在業內標準的ANN Benchmarks基準測試中,針對GIST-960資料集表現出色。測試結果顯示,該向量庫在ANN Benmarks測試中效能遠超其他演算法,排名第一。特別是在 90% 以上的召回率區間,查詢效能(QPS)相比此前最優演算法 glass 提升 100%,相比基線演算法 hnswlib 提升 300%。
楊傳輝還強調,AI天然擁抱雲,OceanBase作為一體化資料庫,不僅具備雲上雲下一體化能力,同時具備多雲原生開放架構,這些優勢都能有效地幫助客戶實現雲與AI結合,滿足客戶在雲+AI時代的資料管理需求。