命運齒輪轉動的開始,源於 2023 年的 3 月 23 日的 OpenAI 一次日常更新。
這一天,OpenAI ChatGPT 釋出了一個名叫 chatgpt-retrieval-plugin 的外掛功能。而在官方 plugin 給出的標準案例中,OpenAI 專門提到,向量資料庫是大模型產品形成長期記憶一個必不可少的元件。
無獨有偶,三天前的 NVIDIA GTC 2023 大會上,英偉達創始人黃仁勳也重點提及向量資料庫,一家過去名不見經傳的向量資料庫創業公司 Zilliz 在此期間,被三次邀請上臺演講。向量資料庫與大語言模型,成為這一年的 GTC 上,除晶片之外討論度最高的關鍵詞。
也是自這一天起,海內外的各大開源社群以及創投市場,所有向量資料庫專案的關注度瞬間畫出了一條陡峭的增長曲線。
老牌玩家 Zilliz 旗下 Milvus 的 GitHub 的 Star 在接下來的兩年時間迅速從一萬增長至三萬。原本略顯荒蕪的賽道中,僅僅一個多月,就有 Pinecone,Weaviate 各種 “專用向量資料庫” 如雨後春筍冒了出來,數十億熱錢被打到創業公司的戶頭。
烈火烹油,鮮花著錦,與熱情一同狂奔而來的是粗放的管理:
谷歌開發專家兼 YouTube 頻道 Fireship 的建立者 Jeff Delaney,在 0 收入、0 商業計劃甚至 0 展示程式碼的情況下,就能憑藉 Rektor 向量資料庫初創專案將公司估值推升至 4.2 億美元。明星創業公司公開承認產品只是在 ClickHouse 和 HNSWlib 基礎上,加上了向量檢索與 Python 封裝,就推向市場。
二級市場,哪怕傳統的資料庫運維公司,只要放出一個正在研發向量資料庫的訊息,就立刻在被轉化為股票走勢中連續的 20cm 漲停。甚至有大廠,從立項到完成產品化僅用時三個月不到,就推出了自研的向量資料庫產品。
那時,所有人都相信,每個時代都有自己的代表性基礎設施:如果工業革命時期的水電煤;資訊時代的 IOE+wintel;手機時代是高通 + 安卓 + Snowflake,那麼到了 AI 時代,為什麼不會是 GPU + 大模型 + 向量資料庫?
手握向量資料庫的原始碼,排入的是通往 AI 時代千億市值的繁華夢之隊。
卻唯獨忘記了,殘暴的歡愉終將以殘暴收尾,就如同歷史上反覆上演的資料庫戰爭一般 —— 在一個極具規模效應的市場裡,二八原則早已為所有玩家的未來寫下結局的註腳。
一、一個新的千億藍海市場
在理解市場對向量資料庫的狂熱之前,我們需要先對其概念及其與大模型的關係,做一個清楚的闡釋。
所謂向量資料庫,顧名思義,使用者儲存、管理向量的資料庫。與之並列的概念,則是甲骨文、MySQL 為代表的傳統關係型資料庫,以及 Web 2.0 時期興起的 PostgreSQL、MongoDB 等為代表的 NoSQL 資料庫。
與後兩者相比,向量資料庫更擅長儲存、管理的資料型別,是我們常見的圖片,影片,音訊,文件等無法用表格(結構化方式)進行精確描述的非結構化資料。
在傳統資料庫裡,我們對資料的管理和查詢,類似於常見的 Excel,主要依靠對資料進行分門別類後,進行精確查詢與運算,比如在超市貨架中找到所有的 “巧克力”,非常的容易。但如果要找到具有某一型別特徵的商品,比如 “可以快速補充血糖的商品”,那麼基於關鍵詞的精準搜尋就幫不上忙了。
而向量資料庫對資料的儲存與管理,是基於其 “特徵” 的相似度,比如一張巧克力的照片,經過 AI 模型對其進行特徵提取,儲存在向量資料庫中,就會變成一系列獨特的如 “高脂肪”“零食”“高糖”“褐色”“原產中南美洲” 等 “特徵碼”,進而響應 “補充血糖” 這樣的特徵檢索需求。
也是因此,與傳統的資料庫相比,向量資料庫與時下大火的大模型的關係也更為密切。
一個典型的應用方向是 RAG。
RAG,全稱 Retrieval-Augmented Generation,中文可以理解為 “檢索增強生成”,一般被廣泛用於垂類知識庫的構建,用以解決大模型的幻覺、垂類知識缺乏,以及知識動態更新的困境。
過去幾年中,ChatGPT 為代表,大模型的出現讓人工智慧的通識水平以及推理能力有了飛躍性的提升。然而大模型最大的缺陷在於,缺乏專業領域知識以及長期記憶,並且容易出現幻覺。因此,我們經常可以看到大模型可以寫複雜的程式,卻被小學生奧數題難倒,再比如,一些大模型在學習了錯誤、“有毒” 的資料素材後,會分不清 “南唐” 與 “唐朝”,也會對李白的作品有哪些等問題張冠李戴。
與此同時,在金融等領域,我們通常需要最新的一手資料與知識進行分析,然而大模型在訓練完成後,所擁有的知識就已經被固定,缺乏對行情為代表的知識與資訊的動態補充能力。
透過向量資料庫,企業可以將自身的垂類知識、企業專屬知識等內容以 RAG 模式接入大模型,進而使其迅速掌握醫藥、法律、汽車等專業領域的知識之外,也能夠實時進行知識的動態更新。
也是因此,大模型撬動市場對向量資料庫的需求;向量資料庫成為大模型通往智慧之路的催化劑。市場就像滾雪球一樣,在這個永動機式的擴張中越變越大。
但向量資料庫的潛力遠不止於此,大模型之外,個性化多模態內容搜尋、推薦系統、精準營銷、風控、欺詐檢測、網路安全、自動駕駛、虛擬藥物篩選同樣也是向量資料庫應用的核心場景。
下游應用的爆發帶來了市場規模的進一步擴張:DB-Engines 資料顯示,過去三年中,向量資料庫一直是最受歡迎的資料庫類別;Gartner 也預測,到 2026 年,30% 的企業將把向量資料庫整合到其生成式 AI 模型中。
東北證券則對市場規模做了進一步測算,到 2030 年,全球向量資料庫市場規模有望達到 500 億美元,國內向量資料庫市場規模有望超過 600 億人民幣。
歷史已經告訴我們,一切風口之中,賣鏟子才是最穩賺不賠的生意。
而向量資料庫,就是大模型時代那把通往未來的金鏟子。
二、向量資料庫的江湖派系
如果不出意外,在這個賽道中,誕生千億級別的企業,只是時間的早晚問題。
也正是在這種無法抗拒的誘惑下,市場隨之迅速被劃分為三大派別:
第一派玩家,獨立的向量資料庫創業公司。
其優勢在於產品化,相比傳統單機外掛式資料庫,向量資料庫的檢索規模可以提升十倍,支援百萬級每秒查詢(QPS)的峰值能力,同時延遲控制在毫秒級。
不足則是由於部分創業公司成立時間較短,缺乏各種資料庫應該具備的基礎效能力,例如:備份 / 恢復 / 高可用、批次更新 / 查詢操作,事務 / ACID 等。此外,資料跨庫帶來的不同步也是個不容忽視的問題。比如如果使用者在最原始的 PostgreSQL 中刪除了某一條資料後,沒有在向量資料庫中實時同步,就會出現資料不一致,在生產環境中帶來影響。
第二派,傳統資料庫玩家:如甲骨文 和 MongoDB 等,透過在傳統資料庫上加上一個具備向量檢索能力的外掛,從而使得傳統資料庫具備了向量的檢索能力。
其優勢在於資料不再需要在多個資料庫之間同步、流轉、處理。劣勢則在傳統資料庫對海量非結構化資料的處理與支援存在一定的缺陷。比如建一個相簿類應用,對 10 億級別圖片進行以圖搜圖,每張圖片對應 128 維 Float 向量,需要的伺服器記憶體將高達 480GB ,早已超出單機記憶體的極限。也就是說,百萬以及千萬級的資料中,傳統資料庫做加法,可以支撐一定的使用者的需求,如果要做到億級乃至 10 億的資料規模,就需要專業的企業級分散式向量資料庫了。
第三派玩家,雲服務巨頭。以 AWS 和 Microsoft 為代表,他們會在雲服務的產品體系中,加入自研的向量資料庫產品,優勢在於 “買一贈一”、服務連續,缺點則在於雲服務巨頭們往往同時在做大模型、應用、雲服務、向量資料庫,既做裁判又做運動員的情況下,企業如何放心將私密的知識庫放在雲上,就成了新的問題。
至此,天下三分。傳統資料庫玩家在 noSQL、圖資料庫、關係型資料庫、向量資料庫多個戰場四面開花;雲服務巨頭卡位流量端,讓向量資料庫成為整體業務上運中買一贈一中的贈品;而創業公司則以產品與壓強式投入見長,在效能與服務上獨領風騷。
三、向量資料庫的中場戰報
就在各大玩家還在低著頭矇眼狂奔同期,今年三季度,Forrester 已經透過一張 “Forrester Wave™ 向量資料庫報告”,從產品能力、商業策略、市場表現三大方向的 25 大維度,為 14 家頭部向量資料庫排好了彼此的身家位次。