星環科技分散式向量資料庫Transwarp Hippo正式釋出,擴充大語言模型時間和空間維度
隨著企業、機構中非結構化資料應用的日益增多以及AI的爆發式增長所帶來的大量生成式資料,所涉及的資料呈現了 體量大、格式和儲存方式多樣、處理速度要求高、潛在價值大等特點。但傳統資料平臺對這些資料的處理能力較為有限,如使用檔案系統、多類不同資料庫儲存上述資料, 在資料儲存管理、查詢分析效率、資料價值挖掘等方面都存在一定的瓶頸 ,例如傳統資料庫查詢是點查和範圍查的一種精確查詢,無法滿足大模型下如智慧問答、智慧推薦等場景。
因此,企業急需一款或數款管理好非結構化資料的資料管理平臺。業內常用的做法,是利用人工智慧中的表示學習, 將這些非結構化資料抽象、轉換為高維度的多維向量,由此可以結構化地在向量資料庫中進行管理,實現快速、高效的資料儲存和檢索過程,結合相似性檢索特性,進而更高效地支撐更廣泛的應用場景,比如智慧推薦場景等。同時,隨著大語言模型應用中對長文字處理和領域知識表示使用的深入,對向量資料庫的需求也日益迫切。
近日, 在向星力•未來資料技術峰會上,星環科技正式釋出了分散式向量資料庫Transwarp Hippo。作為一款 企業級雲原生分散式向量資料庫,星環分散式向量資料庫Hippo 支援儲存、索引以及管理海量的向量式資料集,提供向量相似度檢索、高密度向量聚類等能力, 有效地解決了大模型在知識時效性低、輸入能力有限、準確度低等問題,讓大模型更高效率地儲存和讀取知識庫, 降低訓練和推理成本,激發更多的AI應用場景。 在賦予大模型擁有“長期記憶”的同時,還可以協助企業解決目前最擔憂的大模型資料隱私洩露問題。
大模型的快速應用,推動向量資料庫向高擴充套件、高效能、 實時性 方向發展
大模型正在與企業應用迅速結合,重塑企業應用中人與資料的互動方式。然而,不管是通用模型,還是微調出來的行業模型,都存在著一定的侷限性:
-
實時性難題: 模型訓練需要很長的時間,可能需要半年或一年,實時資訊、新聞、市場行情等快速變化的資訊,無法及時地內建到模型當中。 -
長Token難題: 大模型的輸入Token(文字中的最小單位)能力受到算力和工程化程度的限制。在這種限制下,例如無法將一家上市公司的全部年報資料輸入進大模型,導致不能進行全面的分析。 -
精度校正難題: 大模型雖然經過大量資料的長期訓練,但很多場景下精準度還是不夠,需要補充知識庫進行校正,讓其能夠給出更準確的結果和更實時的資訊。
向量資料庫早先被用於文字搜尋或者語義搜尋,過去不少公司用來做個性化推薦、構建知識圖譜等。隨著大模型的興起,向量資料庫可以讓大模型更高效率地儲存和讀取知識庫,並以更低的成本進行模型微調,進一步地激發AI應用場景。此外,幾千、上萬種應用帶來海量的資料,需要一個 高擴充套件的向量資料庫來存放更多的資料資訊。而向量資料複雜度的提升,模型推理速度的加快等也要求能夠提供 高效能的檢索能力。實時動態變化的資料,對向量資料庫的 實時寫入、實時更新、實現召回能力的要求變高,透過將實時資訊、實時新聞、市場行情等快速變化的資訊及時地內建到模型中,使其能夠提供更實時、更精準的結果。
高擴充套件性 ,海量向量資料儲存
與直接利用各類演算法lib不同,星環Hippo儲存和計算都可以充分利用分散式特性,按需靈活擴充套件,滿足大規模叢集部署需求;透過Raft演算法確保資料的強一致性;並提供故障遷移,資料修復等資料保障能力。
動態更新,實時檢索
星環分散式向量資料庫Hippo提供資料動態更新的能力,對於實時插入/更新的資料,可以快速完成資料的載入和索引的構建,解決向量資料T+1的傳統處理邏輯,滿足實時動態變化資料的向量檢索分析。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69994106/viewspace-2992134/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 文字向量空間模型模型
- 時間和空間的完美統一!阿里雲時空資料庫正式商業化阿里資料庫
- 【資料結構】-時間複雜度和空間複雜度資料結構時間複雜度
- 奔跑吧,大屏-時間+空間實時四維資料透視
- 星環科技重磅推出資料要素流通平臺Transwarp Navier
- [10] 名稱空間擴充套件和鏈式呼叫套件
- 時間複雜度和空間複雜度時間複雜度
- 擴充套件表空間套件
- 星環科技多模型資料統一儲存的大資料分散式儲存平臺方案分享模型大資料分散式
- oracle 表空間、段、資料擴充和資料塊——來自網路Oracle
- 時間複雜度O(n)和空間複雜度時間複雜度
- 時間複雜度和空間複雜度 順序時間複雜度
- 擴充linux swap空間Linux
- ubuntu 擴充套件磁碟空間Ubuntu套件
- 【Oracle-資料庫維護】-刪除臨時表空間Oracle資料庫
- C語言時間函式C語言函式
- 資料庫表空間不夠,需要擴容資料庫
- 空間資料庫三維空間兩點距離計算錯誤資料庫
- mysql空間擴充套件 VS PostGISMySql套件
- 擴充套件邏輯卷空間套件
- windchill 擴充USERS表空間
- 增加自動擴充套件臨時表空間及改變預設表空間套件
- 分散式資料庫 RethinkDB 2.0 釋出分散式資料庫
- 金融級分散式關聯式資料庫OceanBase 2.2版正式釋出分散式資料庫
- 時間複雜度跟空間複雜度時間複雜度
- 時間複雜度與空間複雜度時間複雜度
- 資料庫和表空間資料移動資料庫
- 關於計算時間複雜度和空間複雜度時間複雜度
- JavaScript 資料結構與演算法之美 - 時間和空間複雜度JavaScript資料結構演算法複雜度
- 星環科技ArgoDB 3.2正式釋出,全面升級易用性、效能和安全Go
- 時間與空間複雜度分析複雜度
- oracle建立臨時表空間和資料表空間以及刪除Oracle
- Redis 3.0.0正式版釋出,全新的分散式高可用資料庫Redis分散式資料庫
- 星環科技StellarDB4.0正式釋出:效能數倍提升,萬億級圖資料庫挖掘海量資料互聯價值資料庫
- 查詢表空間是否具備自動擴充套件空間套件
- ORA-03206,當表空間不夠時,如何以新增資料檔案的方式擴充套件表空間套件
- Go語言標準庫time之日期和時間相關函式Go函式
- Linux擴充套件LVM空間Linux套件LVM