1 文字Embedding
將整個文字轉化為實數向量的技術。
Embedding優點是可將離散的詞語或句子轉化為連續的向量,就可用數學方法來處理詞語或句子,捕捉到文字的語義資訊,文字和文字的關係資訊。
◉ 優質的Embedding通常會讓語義相似的文字在空間中彼此接*
◉ 優質的Embedding相似的語義關係可以透過向量的算術運算來表示:
2 文字Embedding模型的演進與選型
目前的向量模型從單純的基於 NLI 資料集(對稱資料集)發展到基於混合資料(對稱+非對稱)進行訓練,即可以做 QQ召回任務也能夠做 QD 召回任務,透過新增 Instruction 來區分這兩類任務,只有在進行 QD 召回的時候,需要對使用者 query 新增上 Instruction 字首。
3 VDB通用Embedding模型
模型選擇:
GPU資源:
4 VDB垂類Embedding模型
使用者提供垂類文件資料,VDB對模型進行微調,助力垂類應用效果更進一步。
最佳化1:對比學*拉*同義文字的距離,推遠不同文字的距離
最佳化2:短文字匹配和長文字匹配使用不同prompt,提升非對稱類文字效果
最佳化3:預訓練階段提升基座模型面向檢索的能力,對比學*階段提高負樣本數
5 儲存、檢索向量資料
5.1 為啥需要一個專用的向量資料庫
- 查詢方式與傳統資料庫存在區別
- 簡單易用,無需關心細節
- 為相似性檢索設計,天生效能優勢
5.2 騰訊雲向量資料庫的優勢
“首家”:
- 透過信通院的標準化效能和規模測試
- 支援千億級向量規模和最高500W QPS
自研:
- 核心源自集團自研OLAMA引擎
- 內部已有40+業務接入
價效比:
- 效能領先業內平均水平1.5倍
- 同時客戶成本降低20%
6 VDB優勢
流程簡化
模型簡化:
共享GPU叢集:
7 騰訊雲向量資料庫:消除大模型幻覺,加速大模型在企業落地
7.1 端到端AI套件,AGI時代的知識庫解決方案
提供一站式知識檢索方案,實現業界內最高召回率、大幅降低開發門檻,幫助企業快速搭建RAG應用,解決大模型幻覺問題。
7.2 源自集團多年積累,產品能力行業領先
源自騰訊自研向量檢索引擎OLAMA,集團內部40+業務線上使用,日均處理1600億次檢索請求。
- 『首家』透過中國信通院向量資料庫標準測試
- 單索引支援最高千億級超大資料規模
- 單例項最高可達500萬 QPS
本文由部落格一文多發平臺 OpenWrite 釋出!