分組向量檢索

DashVector發表於2024-11-25

原文網址 : https://www.cnblogs.com/DashVector/p/18567396

本文介紹如何在向量檢索時將結果按照欄位值進行分組返回。

背景介紹

在向量檢索的實際應用中，有些場景需要將向量檢索的結果分組返回。例如：

在RAG中，一篇文件往往需要拆分為多個段落，每個段落生成一個向量存入DashVector。在向量檢索時，為了結果的多樣性，不希望所有結果都來自同一篇文件的段落，而是希望結果返回多篇文件，並且每篇文件下僅返回最相似的若干個段落。
在商品影像檢索時，每個商品通常有多個商品圖片，每個圖片生成一個向量存入DashVector。在向量檢索時，為了結果的多樣性，不希望所有結果都是同一個商品的圖片，而是希望返回多樣化商品，並且每個商品下僅返回最相似的若干個圖片。

向量檢索服務DashVector支援分組向量檢索，對於上面的兩個場景可以透過分組檢索Doc介面分別設定group_by_field為"文件ID"和"商品ID"，然後執行分組向量檢索。

使用示例

前提條件

已建立Cluster
已獲得API-KEY
已安裝最新版SDK

插入帶有Field的資料

說明

需要使用您的api-key替換示例中的 YOUR_API_KEY、您的Cluster Endpoint替換示例中的YOUR_CLUSTER_ENDPOINT，程式碼才能正常執行。

import dashvector
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
ret = client.create(
    name='group_by_demo',
    dimension=4,
    fields_schema={'document_id': str, 'chunk_id': int}
)
assert ret

collection = client.get(name='group_by_demo')

ret = collection.insert([
    ('1', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 1, 'content': 'xxxA'}),
    ('2', np.random.rand(4), {'document_id': 'paper-01', 'chunk_id': 2, 'content': 'xxxB'}),
    ('3', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 1, 'content': 'xxxC'}),
    ('4', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 2, 'content': 'xxxD'}),
    ('5', np.random.rand(4), {'document_id': 'paper-02', 'chunk_id': 3, 'content': 'xxxE'}),
    ('6', np.random.rand(4), {'document_id': 'paper-03', 'chunk_id': 1, 'content': 'xxxF'}),
])
assert ret

執行分組向量檢索

ret = collection.query_group_by(
    vector=[0.1, 0.2, 0.3, 0.4],
    group_by_field='document_id',  # 按document_id欄位的值分組
    group_count=2,  # 返回2個分組
    group_topk=2,   # 每個分組最多返回2個doc
)
# 判斷是否成功
if ret:
    print('query_group_by success')
    print(len(ret))
    print('------------------------')
    for group in ret:
        print('group key:', group.group_id)
        for doc in group.docs:
            prefix = ' -'
            print(prefix, doc)

上面分組檢索的示例結果如下：

query_group_by success
4
------------------------
group key: paper-01
 - {"id": "2", "fields": {"document_id": "paper-01", "chunk_id": 2, "content": "xxxB"}, "score": 0.6807}
 - {"id": "1", "fields": {"document_id": "paper-01", "chunk_id": 1, "content": "xxxA"}, "score": 0.4289}
group key: paper-02
 - {"id": "3", "fields": {"document_id": "paper-02", "chunk_id": 1, "content": "xxxC"}, "score": 0.6553}
 - {"id": "5", "fields": {"document_id": "paper-02", "chunk_id": 3, "content": "xxxE"}, "score": 0.4401}

限制說明

重要

group_by_field只能指定新建Collection時透過fields_schema引數定義的Field名稱，Schema Free欄位不支援分組檢索。
group_count和group_topk均為盡力而為引數，實際返回的分組數（group_count）和每個分組的doc數（group_topk）可能少於所設定的值。DashVector會優先保證分組數（group_count）。
過大的group_count和group_topk會增加索引掃描量，從而導致介面耗時增加。當前group_count最大值為64，group_topk最大值為16。

如何開通向量檢索服務？
2024-11-25
向量檢索服務關聯角色
2024-12-03
向量檢索服務RAM授權
2024-12-03
大規模向量檢索與量化方法
2024-11-18
向量檢索服務產品規格
2024-11-25
OpenSearch向量檢索和大模型方案深度解讀
2023-11-28
大模型
Elasticsearch 查詢結果分組統計,聚合檢索(group by stats)
2021-03-05
Elasticsearch
Oracle OCP(15)：分層檢索
2019-01-24
Oracle
ES 24 - 如何通過Elasticsearch進行聚合檢索 (分組統計)
2019-08-02
Elasticsearch
ByteHouse高效能向量檢索實踐——“以圖搜圖”
2024-08-02
PostgreSQL一複合查詢SQL優化例子-(多個exists,範圍檢索,IN檢索,模糊檢索組合)
2018-09-15
SQL優化
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
美團外賣基於GPU的向量檢索系統實踐
2024-04-12
GPU
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
ES：檢索
2018-11-07
pta檢索
2020-11-22
Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
影象檢索：資訊檢索評價指標mAP
2018-12-26
指標
基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
配置全文檢索
2019-07-20
資料檢索
2020-10-31
資訊檢索
2024-09-09
2分鐘完成論文調研！ByteDance Research推出論文檢索智慧體PaSa，遠超主流檢索工具
2025-01-23
智慧體
ACM – 5.3 排序檢索
2019-05-13
ACM排序
全文檢索庫 bluge
2021-12-20
MySQL單表檢索
2021-12-11
MySql
ElasticSearch進階檢索
2021-08-11
Elasticsearch
ElasticSearch入門檢索
2021-08-09
Elasticsearch
Kibana 全文檢索操作
2021-07-08
C#實現前向最大匹、字典樹（分詞、檢索）
2020-05-15
C#分詞
昆蟲分類與檢索系統的設計與開發
2019-02-15
ES 筆記二十二：多語言及中文分詞與檢索
2019-11-17
筆記中文分詞
影象檢索（一）--綜述
2019-03-06
【導航】資訊檢索
2018-12-04
全文檢索的轉義
2019-07-20
solr全文檢索學習
2020-11-14
Solr
條件過濾檢索
2024-11-07
關鍵詞感知檢索
2024-11-14