條件過濾檢索

DashVector發表於2024-11-07

背景介紹

在大多數業務場景中,單純使用向量進行相似性檢索並無法滿足業務需求,通常需要在滿足特定過濾條件、或者特定的"標籤"的前提下,再進行相似性檢索。

向量檢索服務DashVector支援條件過濾和向量相似性檢索相結合,在精確滿足過濾條件的前提下進行高效的向量檢索。

條件過濾檢索示例

說明

  1. 需要使用您的api-key替換示例中的 YOUR_API_KEY、您的Cluster Endpoint替換示例中的YOUR_CLUSTER_ENDPOINT,程式碼才能正常執行。

  2. 本示例需要參考新建Collection-使用示例

插入帶有Field的資料

Python

import dashvector
import numpy as np

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')

ret = collection.insert([
    ('1', np.random.rand(4), {'name':'zhangsan', 'age': 10, 'male': True, 'weight': 35.0}),
    ('2', np.random.rand(4), {'name':'lisi', 'age': 20, 'male': False, 'weight': 45.0}),
    ('3', np.random.rand(4), {'name':'wangwu', 'age': 30, 'male': True, 'weight': 75.0}),
    ('4', np.random.rand(4), {'name':'zhaoliu', 'age': 5, 'male': False, 'weight': 18.0}),
    ('5', np.random.rand(4), {'name':'sunqi', 'age': 40, 'male': True, 'weight': 70.0})
])
assert ret

說明

在新建Collection-使用示例中,建立了名稱為quickstart的Collection,該Collection定義了3個Field({'name': str, 'weight': float, 'age': int})。DashVector具有Schema Free的特性,因此可以在插入Do時,隨意指定建立Collection時未定義的Field,如上述示例中的maleField。

透過filter進行條件過濾檢索

Python

import dashvector

client = dashvector.Client(
    api_key='YOUR_API_KEY',
    endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')

# 要求年齡(age)大於18,並且體重(weight)大於65.0的男性(male=true)
docs = collection.query(
  [0.1, 0.1, 0.1, 0.1],
  topk=10,
  filter = 'age > 18 and weight > 65.0 and male = true'
)
print(docs)

DashVector支援的資料型別

當前DashVector支援Python的4種基礎資料型別:

  • str

  • float

  • int

  • bool

重要

Python的int型別可表達無限大小的整數,當前DashVector僅支援32位整數,範圍為-2,147,483,648~2,147,483,647,需要使用者自行保證資料未溢位。

比較運算子

透過Field 比較運算子 常量的組合生成比較表示式,說明及示例如下:

成員運算子

透過Field 成員運算子 常量的組合生成比較表示式,說明及示例如下:

字串運算子

透過Field 字串運算子 常量的組合生成匹配表示式,說明及示例如下:

邏輯運算子

邏輯運算子用於組合多個表示式。

說明

可透過括號()組合邏輯運算子,()擁有更高優先順序,如:expr1 and (expr2 or expr3),會優先計算(expr2 or expr3)

相關文章