RAG應用開發實戰02-相似性檢索的關鍵 - Embedding

公众号-JavaEdge發表於2024-04-14

1 文字Embedding

將整個文字轉化為實數向量的技術。

Embedding優點是可將離散的詞語或句子轉化為連續的向量,就可用數學方法來處理詞語或句子,捕捉到文字的語義資訊,文字和文字的關係資訊。

◉ 優質的Embedding通常會讓語義相似的文字在空間中彼此接*

◉ 優質的Embedding相似的語義關係可以透過向量的算術運算來表示:

2 文字Embedding模型的演進與選型

目前的向量模型從單純的基於 NLI 資料集(對稱資料集)發展到基於混合資料(對稱+非對稱)進行訓練,即可以做 QQ召回任務也能夠做 QD 召回任務,透過新增 Instruction 來區分這兩類任務,只有在進行 QD 召回的時候,需要對使用者 query 新增上 Instruction 字首。

3 VDB通用Embedding模型

模型選擇:

GPU資源:

4 VDB垂類Embedding模型

使用者提供垂類文件資料,VDB對模型進行微調,助力垂類應用效果更進一步。

最佳化1:對比學*拉*同義文字的距離,推遠不同文字的距離

最佳化2:短文字匹配和長文字匹配使用不同prompt,提升非對稱類文字效果

最佳化3:預訓練階段提升基座模型面向檢索的能力,對比學*階段提高負樣本數

5 儲存、檢索向量資料

5.1 為啥需要一個專用的向量資料庫

  1. 查詢方式與傳統資料庫存在區別
  2. 簡單易用,無需關心細節
  3. 為相似性檢索設計,天生效能優勢

5.2 騰訊雲向量資料庫的優勢

“首家”:

  • 透過信通院的標準化效能和規模測試
  • 支援千億級向量規模和最高500W QPS

自研:

  • 核心源自集團自研OLAMA引擎
  • 內部已有40+業務接入

價效比:

  • 效能領先業內平均水平1.5
  • 同時客戶成本降低20%

6 VDB優勢

流程簡化

模型簡化:

共享GPU叢集:

7 騰訊雲向量資料庫:消除大模型幻覺,加速大模型在企業落地

7.1 端到端AI套件,AGI時代的知識庫解決方案

提供一站式知識檢索方案,實現業界內最高召回率、大幅降低開發門檻,幫助企業快速搭建RAG應用,解決大模型幻覺問題。

7.2 源自集團多年積累,產品能力行業領先

源自騰訊自研向量檢索引擎OLAMA,集團內部40+業務線上使用,日均處理1600億次檢索請求。

  • 『首家』透過中國信通院向量資料庫標準測試
  • 單索引支援最高千億級超大資料規模
  • 單例項最高可達500萬 QPS

本文由部落格一文多發平臺 OpenWrite 釋出!

相關文章