星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
隨著企業、機構中非結構化資料應用的日益增多以及AI的爆發式增長所帶來的大量生成式資料,所涉及的資料呈現了 體量大、格式和儲存方式多樣、處理速度要求高、潛在價值大等特點。但傳統資料平臺對這些資料的處理能力較為有限,如使用檔案系統、多類不同資料庫儲存上述資料, 在資料儲存管理、查詢分析效率、資料價值挖掘等方面都存在一定的瓶頸 ,例如傳統資料庫查詢是點查和範圍查的一種精確查詢,無法滿足大模型下如智慧問答、智慧推薦等場景。
因此,企業急需一款或數款管理好非結構化資料的資料管理平臺。業內常用的做法,是利用人工智慧中的表示學習, 將這些非結構化資料抽象、轉換為高維度的多維向量,由此可以結構化地在向量資料庫中進行管理,實現快速、高效的資料儲存和檢索過程,結合相似性檢索特性,進而更高效地支撐更廣泛的應用場景,比如智慧推薦場景等。同時,隨著大語言模型應用中對長文字處理和領域知識表示使用的深入,對向量資料庫的需求也日益迫切。
近日, 在向星力•未來資料技術峰會上,星環科技正式釋出了分散式向量資料庫Transwarp Hippo。作為一款 企業級雲原生分散式向量資料庫,星環分散式向量資料庫Hippo 支援儲存、索引以及管理海量的向量式資料集,提供向量相似度檢索、高密度向量聚類等能力, 有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地儲存和讀取知識庫, 降低訓練和推理成本,激發更多的AI應用場景。 在賦予大模型擁有“長期記憶”的同時,還可以協助企業解決目前最擔憂的大模型資料隱私洩露問題。
大模型的快速應用,推動向量資料庫向高擴充套件、高效能、 實時性 方向發展
大模型正在與企業應用迅速結合,重塑企業應用中人與資料的互動方式。然而,不管是通用模型,還是微調出來的行業模型,都存在著一定的侷限性:
-
實時性難題: 模型訓練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的資訊,無法及時地內建到模型當中。 -
長Token難題: 大模型的輸入Token(文字中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報資料輸入進大模型,導致不能進行全面的分析。 -
精度校正難題: 大模型雖然經過大量資料的長期訓練,但很多場景下精準度還是不夠,需要補充知識庫進行校正,讓其能夠給出更準確的結果和更實時的資訊。
向量資料庫早先被用於文字搜尋或者語義搜尋,過去不少公司用來做個性化推薦、構建知識圖譜等。隨著大模型的興起,向量資料庫可以讓大模型更高效率地儲存和讀取知識庫,並以更低的成本進行模型微調,進一步地激發AI應用場景。此外,幾千、上萬種應用帶來海量的資料,需要一個 高擴充套件的向量資料庫來存放更多的資料資訊。而向量資料複雜度的提升,模型推理速度的加快等也要求能夠提供 高效能的檢索能力。實時動態變化的資料,對向量資料庫的 實時寫入、實時更新、實現召回能力的要求變高,透過將實時資訊、實時新聞、市場行情等快速變化的資訊及時地內建到模型中,使其能夠提供更實時、更精準的結果。
高擴充套件性 ,海量向量資料儲存
與直接利用各類演算法lib不同,星環Hippo儲存和計算都可以充分利用分散式特性,按需靈活擴充套件,滿足大規模叢集部署需求;透過Raft演算法確保資料的強一致性;並提供故障遷移,資料修復等資料保障能力。
動態更新,實時檢索
星環分散式向量資料庫Hippo提供資料動態更新的能力,對於實時插入/更新的資料,可以快速完成資料的載入和索引的構建,解決向量資料T+1的傳統處理邏輯,滿足實時動態變化資料的向量檢索分析。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2992134/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 時間和空間的完美統一!阿里雲時空資料庫正式商業化阿里資料庫
- 星環科技重磅推出資料要素流通平臺Transwarp Navier
- 時間複雜度和空間複雜度時間複雜度
- Linux擴充套件LVM空間Linux套件LVM
- windchill 擴充USERS表空間
- ubuntu 擴充套件磁碟空間Ubuntu套件
- 星環科技多模型資料統一儲存的大資料分散式儲存平臺方案分享模型大資料分散式
- 時間複雜度O(n)和空間複雜度時間複雜度
- 金融級分散式關聯式資料庫OceanBase 2.2版正式釋出分散式資料庫
- oracle建立臨時表空間和資料表空間以及刪除Oracle
- JavaScript 資料結構與演算法之美 - 時間和空間複雜度JavaScript資料結構演算法複雜度
- Go語言標準庫time之日期和時間相關函式Go函式
- 時間複雜度跟空間複雜度時間複雜度
- 時間複雜度與空間複雜度時間複雜度
- 時間與空間複雜度分析複雜度
- 清理oracle資料庫空間Oracle資料庫
- 星環科技資料安全管理平臺 Defensor重磅釋出
- Apache HBase 1.7.1 釋出,分散式資料庫Apache分散式資料庫
- 2.5.9 在資料庫建立期間支援大檔案表空間資料庫
- 達夢(DM)資料庫的表空間建立和遷移維護資料庫
- GO語言————4.8 時間和日期Go
- 星環科技ArgoDB 3.2正式釋出,全面升級易用性、效能和安全Go
- 星環科技StellarDB4.0正式釋出:效能數倍提升,萬億級圖資料庫挖掘海量資料互聯價值資料庫
- C語言高效程式設計的四大祕技之以空間換時間C語言程式設計
- RxJava 沉思錄(二):空間維度RxJava
- 最詳細的解說—時間和空間複雜度複雜度
- 開源 - Ideal庫 - 特殊時間擴充套件方法(三)Idea套件
- 使用分割槽助手擴充C盤空間
- 時序資料庫 TDengine 3.0.2.0 版本正式釋出資料庫
- 大語言模型的Scaling Law:如何隨著模型大小、訓練資料和計算資源的增加而擴充套件模型套件
- Oracle資料庫高水位釋放——LOB欄位空間釋放Oracle資料庫
- 大語言模型與資料庫故障診斷模型資料庫
- PostgreSQL:表空間-->資料庫-->表SQL資料庫
- HStreamDB v0.6 正式釋出:水平擴充套件性、資料分發實時性提升套件
- lvm 擴充邏輯卷空間(linux的磁碟擴容)LVMLinux
- 資料技術大融合,HSTAP資料庫有多少想象空間?資料庫
- 3.2.1.0 釋出!時間轉換函式+BI 整合+檢視正式上線!函式
- 星環科技孫元浩:語料已經是大模型最大的挑戰大模型