關鍵詞感知檢索

DashVector發表於2024-11-14

原文網址 : https://www.cnblogs.com/DashVector/p/18545613

本文主要介紹帶關鍵詞感知能力的向量檢索服務的優勢、應用示例以及Sparse Vector生成工具。

背景介紹

關鍵詞檢索及其侷限

在資訊檢索領域，"傳統"方式是透過關鍵詞進行資訊檢索，其大致過程為：

對原始語料（如網頁）進行關鍵詞抽取。
建立關鍵詞和原始語料的對映關係，常見的方法有倒排索引、TF-IDF、BM25等方法，其中TF-IDF、BM25通常用 稀疏向量（Sparse Vector） 來表示詞頻。
檢索時，對檢索語句進行關鍵詞抽取，並透過步驟2中建立的對映關係召回關聯度最高的TopK原始語料。

但關鍵詞檢索無法對語義進行理解。例如，檢索語句為"浙一醫院"，經過分詞後成為"浙一"和"醫院"，這兩個關鍵詞都無法有效的命中使用者預期中的"浙江大學醫學院附屬第一醫院"這個目標。

基於語義的向量檢索

隨著人工智慧技術日新月異的發展，語義理解Embedding模型能力的不斷增強，基於語義Embedding的向量檢索召回關聯資訊的方式逐漸成為主流。其大致過程如下：

原始語料（如網頁）透過Embedding模型產生 向量（Vector） ，又稱為 稠密向量（Dense Vector）。
向量入庫向量檢索系統。
檢索時，檢索語句同樣透過Embedding模型產生向量，並用該向量在向量檢索系統中召回距離最近的TopK原始語料。

但不可否認的是，基於語義的向量檢索來召回資訊也存在侷限------必須不斷的最佳化Embedding模型對語義的理解能力，才能取得更好的效果。例如，若模型無法理解"水稻灌溉"和"灌溉水稻"在語義上比較接近，就會導致無法透過"水稻灌溉"召回"灌溉水稻"相關的語料。而關鍵字檢索在這個例子上，恰好可以發揮其優勢，透過"水稻"、"灌溉"關鍵字有效的召回相關語料。

關鍵詞檢索+語義檢索

針對上述問題，逐漸有業務和系統演化出來"兩路召回、綜合排序"的方法來解決，並且在效果上也超過了單純的關鍵字檢索或語義檢索，如下圖所示：

但這種方式的弊端也很明顯：

系統複雜度增加。
硬體資源（記憶體、CPU、磁碟等）開銷增加。
可維護性降低。
......

具有關鍵詞感知能力的語義檢索

向量檢索服務DashVector同時支援Dense Vector（稠密向量）和Sparse Vector（稀疏向量），前者用於模型的高維特徵（Embedding）表達，後者用於關鍵詞和詞頻資訊表達。DashVector可以進行關鍵詞感知的向量檢索，即Dense Vector和Sparse Vector結合的混合檢索。

DashVector帶關鍵詞感知能力的向量檢索能力，既有"兩路召回、綜合排序"方案的優點，又沒有其缺點。使得系統複雜度、資源開銷大幅度降低的同時，還具備關鍵詞檢索、向量檢索、關鍵詞+向量混合檢索的優勢，可滿足絕大多數業務場景的需求。

說明

Sparse Vector（稀疏向量），稀疏向量是指大部分元素為0，僅少量元素非0的向量。在DashVector中，稀疏向量可用來表示詞頻等資訊。例如，{1:0.4, 10000:0.6, 222222:0.8}就是一個稀疏向量，其第1、10000、222222位元素（分別代表三個關鍵字）有非0值（代表關鍵字的權重），其他元素全部為0。

使用示例

前提條件

已建立Cluste
已獲得API-KEY
已安裝最新版SDK

Step1. 建立支援Sparse Vector的Collection

說明

需要使用您的api-key替換以下示例中的 YOUR_API_KEY、您的Cluster Endpoint替換示例中的YOUR_CLUSTER_ENDPOINT，程式碼才能正常執行。
本示例僅對Sparse Vector進行功能演示，簡化起見，向量（Dense Vector）維度設定為4。

Python示例:

import dashvector

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)

ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')

collection = client.get('hybrid_collection')
assert collection

重要

僅內積度量（metric='dotproduct'）支援Sparse Vector功能。

Step2. 插入帶有Sparse Vector的Doc

Python示例:

from dashvector import Doc

collection.insert(Doc(
    id='A',
    vector=[0.1, 0.2, 0.3, 0.4],
    sparse_vector={1: 0.3, 10:0.4, 100:0.3}
))

說明

向量檢索服務DashVector推薦使用快速開始生成Sparse Vector。

Step3. 帶有Sparse Vector的向量檢索

Python示例:

docs = collection.query(
    vector=[0.1, 0.1, 0.1, 0.1],
    sparse_vector={1: 0.3, 20:0.7}
)

Sparse Vector生成工具

DashText，向量檢索服務DashVector推薦使用的SparseVectorEncoder

Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
關鍵詞加粗和插入關鍵詞
2020-06-01
一眼定位問題，函式計算髮布日誌關鍵詞秒檢索功能
2022-03-23
函式
一眼定位問題，函式計算釋出日誌關鍵詞秒檢索功能
2022-03-16
函式
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
robot 關鍵詞
2018-05-04
關鍵詞提取
2024-04-05
匹配關鍵詞和敏感詞
2020-07-05
網站關鍵詞堆砌後，處理關鍵詞堆砌方法
2020-10-18
網站
易優cms網站likearticle功能：透過前3個TAG標籤或前3個關鍵詞，檢索整站文件標題中含有tag標籤或者關鍵詞的相關文件-Eyoucms
2024-07-12
網站
java—— finall 關鍵詞
2020-12-19
Java
什麼是長尾關鍵詞？如何找到長尾關鍵詞？
2020-10-17
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
高亮：單關鍵詞、多關鍵詞、多組多關鍵詞，從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
2018-12-27
什麼是關鍵詞策略？網站關鍵詞佈局重要嗎？
2020-07-28
網站
如何優化多個關鍵詞？分享多關鍵詞優化心得
2021-11-23
優化
iOS中一種字串關鍵字檢索高亮的簡易實現
2019-02-27
iOS字串
作用域鏈this關鍵詞
2018-05-14
Eclipse註釋關鍵詞
2018-03-06
Eclipse
transient關鍵詞的概述
2022-12-04
向量檢索服務關聯角色
2024-12-03
Pig 實現關鍵詞匹配
2020-03-02
Java關鍵詞synchronized解讀
2022-12-29
Javasynchronized
智慧質檢升級換代：為什麼“關鍵詞”不夠用了？
2020-02-24
RAG應用開發實戰02-相似性檢索的關鍵 - Embedding
2024-04-14
vue3和百度地圖關鍵字檢索定位點選定位
2023-01-29
Vue地圖
AI繪畫怎麼寫關鍵詞？AI繪畫高畫質桌布關鍵詞分享
2022-11-28
AI
Hive常用命令,快鍵和關鍵詞
2018-03-14
Hive
C#實現前向最大匹、字典樹（分詞、檢索）
2020-05-15
C#分詞
[譯] 深入淺出 JavaScript 關鍵詞 -- this
2018-05-07
JavaScript
如何用Python提取中文關鍵詞？
2018-06-28
Python
從JavaScript 的關鍵詞談起
2020-01-16
JavaScript
正規表示式關鍵詞解析
2021-01-15
SnowNLP——獲取關鍵詞（keywords(1)）
2021-03-05
ES：檢索
2018-11-07
pta檢索
2020-11-22
掌握seo關鍵點，輕鬆穩定網站關鍵詞排名
2021-11-15
網站

關鍵詞感知檢索

背景介紹

關鍵詞檢索及其侷限

基於語義的向量檢索

關鍵詞檢索+語義檢索

具有關鍵詞感知能力的語義檢索

使用示例

前提條件

Step1. 建立支援Sparse Vector的Collection

Step2. 插入帶有Sparse Vector的Doc

Step3. 帶有Sparse Vector的 向量檢索

Sparse Vector生成工具

相關文章

Step3. 帶有Sparse Vector的向量檢索