星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度

星環科技發表於2023-10-31

星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度

隨著企業、機構中非結構化資料應用的日益增多以及AI的爆發式增長所帶來的大量生成式資料,所涉及的資料呈現了 體量大、格式和儲存方式多樣、處理速度要求高、潛在價值大等特點。但傳統資料平臺對這些資料的處理能力較為有限,如使用檔案系統、多類不同資料庫儲存上述資料, 在資料儲存管理、查詢分析效率、資料價值挖掘等方面都存在一定的瓶頸 ,例如傳統資料庫查詢是點查和範圍查的一種精確查詢,無法滿足大模型下如智慧問答、智慧推薦等場景。

因此,企業急需一款或數款管理好非結構化資料的資料管理平臺。業內常用的做法,是利用人工智慧中的表示學習, 將這些非結構化資料抽象、轉換為高維度的多維向量,由此可以結構化地在向量資料庫中進行管理,實現快速、高效的資料儲存和檢索過程,結合相似性檢索特性,進而更高效地支撐更廣泛的應用場景,比如智慧推薦場景等。同時,隨著大語言模型應用中對長文字處理和領域知識表示使用的深入,對向量資料庫的需求也日益迫切。

近日, 在向星力•未來資料技術峰會上,星環科技正式釋出了分散式向量資料庫Transwarp Hippo。作為一款 企業級雲原生分散式向量資料庫,星環分散式向量資料庫Hippo 支援儲存、索引以及管理海量的向量式資料集,提供向量相似度檢索、高密度向量聚類等能力, 有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地儲存和讀取知識庫, 降低訓練和推理成本,激發更多的AI應用場景。 在賦予大模型擁有“長期記憶”的同時,還可以協助企業解決目前最擔憂的大模型資料隱私洩露問題。

大模型的快速應用,推動向量資料庫向高擴充套件、高效能、 實時性 方向發展 星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度

大模型正在與企業應用迅速結合,重塑企業應用中人與資料的互動方式。然而,不管是通用模型,還是微調出來的行業模型,都存在著一定的侷限性:

  • 實時性難題: 模型訓練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的資訊,無法及時地內建到模型當中。
  • 長Token難題: 大模型的輸入Token(文字中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報資料輸入進大模型,導致不能進行全面的分析。
  • 精度校正難題: 大模型雖然經過大量資料的長期訓練,但很多場景下精準度還是不夠,需要補充知識庫進行校正,讓其能夠給出更準確的結果和更實時的資訊。


目前,大模型訓練所使用的資料包含了如文件、圖片、音影片等各種型別的非結構化資料。使用者可以透過表示學習的預處理方式將這些資料轉化為多維向量,並儲存在向量資料庫中,從而可以很好地解決上述三個問題。比如,在應用端與大模型進行互動時,將輸入的文字、圖片等問題資訊進行向量化,先進行語義搜尋,找到相關的資訊,將其拼接成提示詞傳遞給大模型,大模型透過計算分析後反饋結果。
星環科技創始人、CEO孫元浩表示,“向量資料庫承擔了中間儲存的角色,我們認為向量資料庫就是大語言模型的海馬體,是一個記憶體。其基本功能是能夠儲存多維向量,並提供進一步的檢索。”

向量資料庫早先被用於文字搜尋或者語義搜尋,過去不少公司用來做個性化推薦、構建知識圖譜等。隨著大模型的興起,向量資料庫可以讓大模型更高效率地儲存和讀取知識庫,並以更低的成本進行模型微調,進一步地激發AI應用場景。此外,幾千、上萬種應用帶來海量的資料,需要一個 高擴充套件的向量資料庫來存放更多的資料資訊。而向量資料複雜度的提升,模型推理速度的加快等也要求能夠提供 高效能的檢索能力。實時動態變化的資料,對向量資料庫的 實時寫入、實時更新、實現召回能力的要求變高,透過將實時資訊、實時新聞、市場行情等快速變化的資訊及時地內建到模型中,使其能夠提供更實時、更精準的結果。

星環科技分散式向量資料庫Transwarp Hippo 星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
星環分散式向量資料庫Hippo 作為一款企業級雲原生分散式向量資料庫,基於分散式特性,可以對文件、圖片、音影片等多源、海量資料轉化後的多維向量進行統一儲存和管理。透過多程式架構與GPU加速技術,充分發揮並行檢索能力,實現毫秒級高效能資料檢索,結合相似度檢索等技術,幫助使用者快速挖掘資料價值。
與開源的向量資料庫不同,星環分散式向量資料庫Hippo具備 高可用、高效能、易擴充等特點,支援多種向量搜尋索引,支援資料分割槽分片、資料持久化、增量資料攝取、向量標量欄位過濾混合查詢等功能,很好地滿足了企業針對海量向量資料的 高實時性檢索等場景。
雲原生技術,支援彈性擴縮容
星環分散式向量資料庫Hippo採用全面容器化部署,支援服務的彈性擴縮容,同時具備多租戶和強大的資源管控能力。

高擴充套件性 ,海量向量資料儲存

與直接利用各類演算法lib不同,星環Hippo儲存和計算都可以充分利用分散式特性,按需靈活擴充套件,滿足大規模叢集部署需求;透過Raft演算法確保資料的強一致性;並提供故障遷移,資料修復等資料保障能力。

深度最佳化,高效能資料檢索
星環分散式向量資料庫Hippo支援多程式架構與GPU加速,充分發揮並行檢索能力;支援基於檢索速度和記憶體使用的特定最佳化,以及暫存器級演算法最佳化;同時提供多類索引支援,滿足不同需求不同體量的業務場景。

動態更新,實時檢索

星環分散式向量資料庫Hippo提供資料動態更新的能力,對於實時插入/更新的資料,可以快速完成資料的載入和索引的構建,解決向量資料T+1的傳統處理邏輯,滿足實時動態變化資料的向量檢索分析。

多樣化介面,豐富場景支援
星環分散式向量資料庫Hippo供標準的Python、Restful、CPP、Java API等介面,可輕鬆對接各類應用和模型,提高應用開發和呼叫的效率。同時,提供類SQL介面,滿足入庫等特定場景,大幅降低使用和操作的難度。
多模型聯合
基於TDH多模型統一技術架構,向量資料與關係型資料、圖資料、時序資料等多種模型資料可進行統一儲存管理,並透過統一介面實現資料跨模型聯合分析。
具備高可用、高效能、易擴充等特點的星環分散式向量資料庫Hippo,可以很好地滿足企業針對海量向量資料的高實時性等場景。
文字檢索
傳統搜尋引擎更偏向於詞/句的精確查詢,星環分散式向量資料庫Hippo透過向量引擎提供自然語言處理能力,可以更好地支援基於語義的查詢分析,讓查詢更滿足人性化的需求。
語音/影片/影像檢索
星環分散式向量資料庫Hippo將多維向量特徵構建成高效的向量索引,實現資料的相似性檢索,可覆蓋人臉識別、語音識別、影片指紋等多類AI場景。
個性化推薦
星環分散式向量資料庫Hippo可與各類深度學習平臺搭建的模型進行耦合,透過向量相似度檢索,可以對使用者行為與喜好等多方面進行分析、挖掘,做到千人千面的推薦效果。
智慧搜尋,智慧問答
知識圖譜的目的在於將結構化資料、非結構化資料以及這些資料、實體之間的關聯關係進行儲存和表達。透過星環分散式向量資料庫Hippo可以將這些資訊更好地進行表達和處理,給出符合需求的一系列近似答案和推薦查詢。
向量資料庫與圖資料庫聯合,低成本、高效構建特定領域大模型應用 星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
基於星環分散式向量資料庫Hippo,可以有效地解決大模型在知識時效性低、輸入能力有限、準確度低等問題。透過將最新資料、專業知識、個人習慣等海量資訊向量儲存在星環分散式向量資料庫Hippo中,可以極大地 擴充大模型的應用邊界,讓大模型保持資訊實時性,並能夠動態調整,使大模型擁有“長期記憶”
透過建立垂直領域的知識庫,對大模型輸出結果進行校正,可以 提高結果的精準度,在一定程度上解決“AI幻覺”問題
此外,透過星環分散式向量資料庫Hippo對向量資料進行儲存, 有效解除大模型對輸入的限制,並且大模型在安全機制下訪問向量資料庫中的隱私資料,可以 充分保證資料安全,杜絕隱私洩露風險
星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
然而,大模型只有向量資料庫還不夠 。在召回的基礎上透過提示工程確保資料更精確,更貼近實際場景,同樣也是重要的一環。 星環科技將分散式向量資料庫Hippo和 分散式圖資料庫 StellarDB結合,並以此作為微調的資料憑依,可以更低成本、更高效地構建特定領域的大模型應用。
星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
圖資料庫StellarDB和知識圖譜聯合 ,與大模型視覺化端到端構建工具一起,提供了知識抽取融合、知識建模、知識圖譜生成儲存、基於大模型的知識問答等閉環功能。客戶以知識圖譜作為大語言模型提示即可發起模型微調, 以較低代價就可獲得行業的專屬大語言模型問答應用
將向量資料庫、圖資料庫與大語言模型結合 ,可以構建業務域知識圖譜和業務系統的應用服務,進一步 提高人機互動的效率,提供更靈活的組合業務服務,激發出更多更深入的業務場景AI應用。
例如,在詢問某開源通用大模型關於某集團玉米收儲價格、某集團主要合作上下游企業等問題, 通用大模型沒有行業知識,無法給出準確答案。而 把農業知識圖譜和向量資料庫結合後,可以從知識圖譜中去獲取或者補充大模型的答案,使其 可以精確地回答新收豬價以及價格影響等。
透過這樣的組合可以解決大模型目前存在的三大問題。一是能夠把實時的知識、變化的資訊放到大模型中,二是能夠校正結果的準確性,極大地提升精準度,三是構建相應的知識圖譜,增強大模型的能力。
在星環科技此次推出的金融領域大模型“無涯”中 ,基於星環科技自身在金融領域積累的上百萬金融專業領域的語料,結合圖資料庫StellarDB、深度圖推理演算法技術,形成了大規模高質量的金融類事件訓練指令集,共同鑄就了星環開發金融領域大語言模型的堅實底座。星環“無涯”大模型能夠理解金融行業的術語,也能夠執行特定的任務,比如分析上市公司的年報、公告,生成新聞摘要,判斷特定新聞事件產生的影響等,提升分析師、研究員、投資經理的效率。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2992134/,如需轉載,請註明出處,否則將追究法律責任。

相關文章