向量資料庫的中場戰事:長期主義者Zilliz如何全球突圍

机器之心發表於2024-11-28

命運齒輪轉動的開始,源於 2023 年的 3 月 23 日的 OpenAI 一次日常更新。

這一天,OpenAI ChatGPT 釋出了一個名叫 chatgpt-retrieval-plugin 的外掛功能。而在官方 plugin 給出的標準案例中,OpenAI 專門提到,向量資料庫是大模型產品形成長期記憶一個必不可少的元件。

無獨有偶,三天前的 NVIDIA GTC 2023 大會上,英偉達創始人黃仁勳也重點提及向量資料庫,一家過去名不見經傳的向量資料庫創業公司 Zilliz 在此期間,被三次邀請上臺演講。向量資料庫與大語言模型,成為這一年的 GTC 上,除晶片之外討論度最高的關鍵詞。

也是自這一天起,海內外的各大開源社群以及創投市場,所有向量資料庫專案的關注度瞬間畫出了一條陡峭的增長曲線。

老牌玩家 Zilliz 旗下 Milvus 的 GitHub 的 Star 在接下來的兩年時間迅速從一萬增長至三萬。原本略顯荒蕪的賽道中,僅僅一個多月,就有 Pinecone,Weaviate 各種 “專用向量資料庫” 如雨後春筍冒了出來,數十億熱錢被打到創業公司的戶頭。

烈火烹油,鮮花著錦,與熱情一同狂奔而來的是粗放的管理:

谷歌開發專家兼 YouTube 頻道 Fireship 的建立者 Jeff Delaney,在 0 收入、0 商業計劃甚至 0 展示程式碼的情況下,就能憑藉 Rektor 向量資料庫初創專案將公司估值推升至 4.2 億美元。明星創業公司公開承認產品只是在 ClickHouse 和 HNSWlib 基礎上,加上了向量檢索與 Python 封裝,就推向市場。

二級市場,哪怕傳統的資料庫運維公司,只要放出一個正在研發向量資料庫的訊息,就立刻在被轉化為股票走勢中連續的 20cm 漲停。甚至有大廠,從立項到完成產品化僅用時三個月不到,就推出了自研的向量資料庫產品。

那時,所有人都相信,每個時代都有自己的代表性基礎設施:如果工業革命時期的水電煤;資訊時代的 IOE+wintel;手機時代是高通 + 安卓 + Snowflake,那麼到了 AI 時代,為什麼不會是 GPU + 大模型 + 向量資料庫?

手握向量資料庫的原始碼,排入的是通往 AI 時代千億市值的繁華夢之隊。

卻唯獨忘記了,殘暴的歡愉終將以殘暴收尾,就如同歷史上反覆上演的資料庫戰爭一般 —— 在一個極具規模效應的市場裡,二八原則早已為所有玩家的未來寫下結局的註腳。

一、一個新的千億藍海市場

在理解市場對向量資料庫的狂熱之前,我們需要先對其概念及其與大模型的關係,做一個清楚的闡釋。

所謂向量資料庫,顧名思義,使用者儲存、管理向量的資料庫。與之並列的概念,則是甲骨文、MySQL 為代表的傳統關係型資料庫,以及 Web 2.0 時期興起的 PostgreSQL、MongoDB 等為代表的 NoSQL 資料庫。

與後兩者相比,向量資料庫更擅長儲存、管理的資料型別,是我們常見的圖片,影片,音訊,文件等無法用表格(結構化方式)進行精確描述的非結構化資料。

在傳統資料庫裡,我們對資料的管理和查詢,類似於常見的 Excel,主要依靠對資料進行分門別類後,進行精確查詢與運算,比如在超市貨架中找到所有的 “巧克力”,非常的容易。但如果要找到具有某一型別特徵的商品,比如 “可以快速補充血糖的商品”,那麼基於關鍵詞的精準搜尋就幫不上忙了。

而向量資料庫對資料的儲存與管理,是基於其 “特徵” 的相似度,比如一張巧克力的照片,經過 AI 模型對其進行特徵提取,儲存在向量資料庫中,就會變成一系列獨特的如 “高脂肪”“零食”“高糖”“褐色”“原產中南美洲” 等 “特徵碼”,進而響應 “補充血糖” 這樣的特徵檢索需求。

也是因此,與傳統的資料庫相比,向量資料庫與時下大火的大模型的關係也更為密切。

一個典型的應用方向是 RAG。

RAG,全稱 Retrieval-Augmented Generation,中文可以理解為 “檢索增強生成”,一般被廣泛用於垂類知識庫的構建,用以解決大模型的幻覺、垂類知識缺乏,以及知識動態更新的困境。

過去幾年中,ChatGPT 為代表,大模型的出現讓人工智慧的通識水平以及推理能力有了飛躍性的提升。然而大模型最大的缺陷在於,缺乏專業領域知識以及長期記憶,並且容易出現幻覺。因此,我們經常可以看到大模型可以寫複雜的程式,卻被小學生奧數題難倒,再比如,一些大模型在學習了錯誤、“有毒” 的資料素材後,會分不清 “南唐” 與 “唐朝”,也會對李白的作品有哪些等問題張冠李戴。

與此同時,在金融等領域,我們通常需要最新的一手資料與知識進行分析,然而大模型在訓練完成後,所擁有的知識就已經被固定,缺乏對行情為代表的知識與資訊的動態補充能力。

透過向量資料庫,企業可以將自身的垂類知識、企業專屬知識等內容以 RAG 模式接入大模型,進而使其迅速掌握醫藥、法律、汽車等專業領域的知識之外,也能夠實時進行知識的動態更新。

也是因此,大模型撬動市場對向量資料庫的需求;向量資料庫成為大模型通往智慧之路的催化劑。市場就像滾雪球一樣,在這個永動機式的擴張中越變越大。

但向量資料庫的潛力遠不止於此,大模型之外,個性化多模態內容搜尋、推薦系統、精準營銷、風控、欺詐檢測、網路安全、自動駕駛、虛擬藥物篩選同樣也是向量資料庫應用的核心場景。

下游應用的爆發帶來了市場規模的進一步擴張:DB-Engines 資料顯示,過去三年中,向量資料庫一直是最受歡迎的資料庫類別;Gartner 也預測,到 2026 年,30% 的企業將把向量資料庫整合到其生成式 AI 模型中。

東北證券則對市場規模做了進一步測算,到 2030 年,全球向量資料庫市場規模有望達到 500 億美元,國內向量資料庫市場規模有望超過 600 億人民幣。

歷史已經告訴我們,一切風口之中,賣鏟子才是最穩賺不賠的生意。

向量資料庫,就是大模型時代那把通往未來的金鏟子。

二、向量資料庫的江湖派系

如果不出意外,在這個賽道中,誕生千億級別的企業,只是時間的早晚問題。

也正是在這種無法抗拒的誘惑下,市場隨之迅速被劃分為三大派別:

第一派玩家,獨立的向量資料庫創業公司。

其優勢在於產品化,相比傳統單機外掛式資料庫,向量資料庫的檢索規模可以提升十倍,支援百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。

不足則是由於部分創業公司成立時間較短,缺乏各種資料庫應該具備的基礎效能力,例如:備份 / 恢復 / 高可用、批次更新 / 查詢操作,事務 / ACID 等。此外,資料跨庫帶來的不同步也是個不容忽視的問題。比如如果使用者在最原始的 PostgreSQL 中刪除了某一條資料後,沒有在向量資料庫中實時同步,就會出現資料不一致,在生產環境中帶來影響。

第二派,傳統資料庫玩家:如甲骨文 和 MongoDB 等,透過在傳統資料庫上加上一個具備向量檢索能力的外掛,從而使得傳統資料庫具備了向量的檢索能力。

其優勢在於資料不再需要在多個資料庫之間同步、流轉、處理。劣勢則在傳統資料庫對海量非結構化資料的處理與支援存在一定的缺陷。比如建一個相簿類應用,對 10 億級別圖片進行以圖搜圖,每張圖片對應 128 維 Float 向量,需要的伺服器記憶體將高達 480GB ,早已超出單機記憶體的極限。也就是說,百萬以及千萬級的資料中,傳統資料庫做加法,可以支撐一定的使用者的需求,如果要做到億級乃至 10 億的資料規模,就需要專業的企業級分散式向量資料庫了。

第三派玩家,雲服務巨頭。以 AWS 和 Microsoft 為代表,他們會在雲服務的產品體系中,加入自研的向量資料庫產品,優勢在於 “買一贈一”、服務連續,缺點則在於雲服務巨頭們往往同時在做大模型、應用、雲服務、向量資料庫,既做裁判又做運動員的情況下,企業如何放心將私密的知識庫放在雲上,就成了新的問題。

至此,天下三分。傳統資料庫玩家在 noSQL、圖資料庫、關係型資料庫、向量資料庫多個戰場四面開花;雲服務巨頭卡位流量端,讓向量資料庫成為整體業務上運中買一贈一中的贈品;而創業公司則以產品與壓強式投入見長,在效能與服務上獨領風騷。

三、向量資料庫的中場戰報

就在各大玩家還在低著頭矇眼狂奔同期,今年三季度,Forrester 已經透過一張 “Forrester Wave™ 向量資料庫報告”,從產品能力、商業策略、市場表現三大方向的 25 大維度,為 14 家頭部向量資料庫排好了彼此的身家位次。

圖片
在 Forrester 的座次表中,進入領導者象限的,是第一派玩家 —— 向量資料庫創業公司的代表 Zilliz;第二梯隊,則以 Oracle、Microsoft、AWS、Pinecone 為代表;第三梯隊,則是 MongoDB 等玩家。
整體來說,向量資料庫創業公司的整體座次與入圍數量最為佔優;第二派傳統資料庫玩家以及第三派雲服務巨頭的表現各有千秋。
如何對不同玩家進行座次排布,Forrester 也表述的很直白:優秀的向量資料庫供應商,應當具備以下能力:1、向量索引、後設資料管理、向量檢索和混合搜尋等各種完整的向量資料庫功能;2、完整的資料管理功能,包括向量儲存、實時資料更新、資料整合、資源最佳化、資料完整性和一致性、併發控制和彈性可擴充套件性;3、使用者友好的 UI 設計以及全面好用的 API;4、面對億級資料規模的可擴充套件性,對 GPU 整合的支援。
圖片
以此次進入領導者象限的老牌玩家,也是向量資料庫的開創者 Zilliz 為例。Forrester 對其作出的評價是,Zilliz 整體在管理海量向量資料方面表現突出。尤其在向量維度、向量索引、效能和可擴充套件性上表現出色,因此尤其適合那些優先考慮高效能和低延遲訪問大量向量資料以用於高階 AI 應用程式的客戶。
具體展開來說,在 Forrester 最關心的向量索引層面,以 Zilliz 為代表的原生向量資料庫相比在普通資料庫上做加法的產品,在基礎的向量索引、後設資料管理、向量檢索和混合搜尋方面,具備先天的優勢。
完整的資料管理功能方面,Milvus 與 Zilliz Cloud 更是市面上為數不多可以提供(向量儲存、實時資料更新、資料整合、資源最佳化、資料完整性和一致性、併發控制和彈性可擴充套件性)等功能的產品,與之形成鮮明對比的是部分市面上宣傳的向量資料庫產品,在相當長一段時間裡,連最基本的備份恢復功能都不具備。
UI 與 API 等使用者使用體驗方面,Zilliz Cloud 可以提供開箱即用的向量資料庫服務。
可擴充套件性上,Milvus 能夠處理數百萬乃至數十億級的向量資料,是最受歡迎的開源向量資料資料庫之一;而 Zilliz Cloud 能為使用者提供百億級向量資料毫秒級檢索能力。與此同時,GPU 整合上,GTC 2024 上,Zilliz 還與英偉達聯手釋出了全球首個 GPU 加速向量資料庫,由英偉達 CUDA 加持,效能實現 50 倍提升。
產業側,Zilliz 除了是 OpenAI 官方首批 plugin 合作的向量資料庫之外,全球的客戶與合作伙伴數量也已經超過萬家,並在圖片檢索、影片分析、自然語言理解、推薦系統、定向廣告、個性化搜尋、智慧客服、欺詐檢測、網路安全和新藥發現等領域實現落地。
總結來說,Milvus 與 Zilliz Cloud 是市面上為數不多,做到了向量管理等基礎功能之外,能夠對海量資料支援、完整資料庫功能做好產品級支援的玩家。
而對另外兩派玩家的點評,可以從其對 AWS 以及 Oracle 的點評中一窺 Forrester 的態度。
對於 Oracle,產品能力、商業策略上的優勢不必多提,但報告開篇,Forrester 也直白指出,傳統資料庫在向量維度和相似性搜尋方面存在侷限性。
關於 AWS,Forrester 則認為其在向量維度、資料庫管理、API 支援、資料安全性和向量搜尋等方面頗有建樹,而最大的不足則在於,這些服務僅限於 AWS 雲。

沒有人會不喜歡一個完整的生態,但是如果選擇生態的代價是將最核心的資料資源與之繫結,那麼決策的天平也會就此傾斜。
尾聲
一個被低估的市場
在向量資料庫的割據暗流湧動之時,一個時間鎖已經清晰出現在眼前。
歷史上,圍繞資料庫發生的戰爭,這已經是第三次。
上世紀八十年代,以美國軍方的需求為牽引,資料庫的老牌玩家甲骨文就此在 IBM 的銅牆鐵壁包圍下誕生,使用關係型資料庫處理結構化資料成為此後三十年間資料庫產業的主流。
到了 2010 年前後,網際網路的成熟,使得人類歷史所產生的資料量飛速膨脹,與此同時,我們對資料的需求,也在關係型資料庫的 “行列” 運算的基礎上演變,儲存、讀取,高併發成為這一時期的典型特色,由此,非關係型資料庫(簡稱 NoSQL)誕生,MongoDB 成為這一時期的代表性玩家。
再到 2022 年底,大模型技術成熟,傳統的基於欄位的精準搜尋之外,基於向量的相似性搜尋需求瞬間爆發,向量資料庫一時之間炙手可熱。過程中,一大批新的 “大衛” 開始向巨人歌利亞發起挑戰,淘汰與玩家梯隊也在兩年間迅速產生階段性成果。
為什麼階段性的勝出者會是 Zilliz 為代表創業公司?
答案很簡單 —— 尊重市場。
尊重的第一層,是尊重時代的機遇。與過去的任何一次技術浪潮都不同,站在開源的肩膀上,大模型的誕生與普及,讓全世界所有企業都站在了同一起跑線。也是因此,全球化成為了這一批企業的共同代名詞 —— 在 Zilliz 成立之初,所有的新品與技術釋出,是面向全球的,團隊的構成也同樣遍佈中國、美國、歐洲、日本、新加坡全球各處。
尊重的第二層,是尊重客觀的使用者需求,以及非結構化資料的差異性和巨大潛力。面對使用者的需求,Zilliz 既有在 GitHub 上 3W 星的開源項鍊資料庫 Milvus,同樣有主開啟箱即用的 Zilliz Cloud 。敢於從 0 做起,構建全新的產品以及服務,而不是簡單的成熟產品做加法。
這種尊重的第三層,也是最重要的一環則是堅持。作為最早一批向量資料庫企業,Zilliz 早在大模型尚未成為顯學的 2019 年,就敲下了全世界範圍內向量資料庫的第一行程式碼,即是市場的開創者,也是長期的佈道者,這也為後來 Zilliz 登上英偉達與 OpenAI 的生態大船,埋下伏筆。

未來,誰會是下一個從大風大浪裡走出來的 IOE,市場還需要時間驗證,但天平已經在慢慢向長期主義選手傾斜。

相關文章