背景介紹
在大多數業務場景中,單純使用向量進行相似性檢索並無法滿足業務需求,通常需要在滿足特定過濾條件、或者特定的"標籤"的前提下,再進行相似性檢索。
向量檢索服務DashVector支援條件過濾和向量相似性檢索相結合,在精確滿足過濾條件的前提下進行高效的向量檢索。
條件過濾檢索示例
說明
-
需要使用您的api-key替換示例中的 YOUR_API_KEY、您的Cluster Endpoint替換示例中的YOUR_CLUSTER_ENDPOINT,程式碼才能正常執行。
-
本示例需要參考新建Collection-使用示例
插入帶有Field的資料
Python
import dashvector
import numpy as np
client = dashvector.Client(
api_key='YOUR_API_KEY',
endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')
ret = collection.insert([
('1', np.random.rand(4), {'name':'zhangsan', 'age': 10, 'male': True, 'weight': 35.0}),
('2', np.random.rand(4), {'name':'lisi', 'age': 20, 'male': False, 'weight': 45.0}),
('3', np.random.rand(4), {'name':'wangwu', 'age': 30, 'male': True, 'weight': 75.0}),
('4', np.random.rand(4), {'name':'zhaoliu', 'age': 5, 'male': False, 'weight': 18.0}),
('5', np.random.rand(4), {'name':'sunqi', 'age': 40, 'male': True, 'weight': 70.0})
])
assert ret
說明
在新建Collection-使用示例中,建立了名稱為quickstart的Collection,該Collection定義了3個Field({'name': str, 'weight': float, 'age': int}
)。DashVector具有Schema Free的特性,因此可以在插入Do時,隨意指定建立Collection時未定義的Field,如上述示例中的male
Field。
透過filter進行條件過濾檢索
Python
import dashvector
client = dashvector.Client(
api_key='YOUR_API_KEY',
endpoint='YOUR_CLUSTER_ENDPOINT'
)
collection = client.get(name='quickstart')
# 要求年齡(age)大於18,並且體重(weight)大於65.0的男性(male=true)
docs = collection.query(
[0.1, 0.1, 0.1, 0.1],
topk=10,
filter = 'age > 18 and weight > 65.0 and male = true'
)
print(docs)
DashVector支援的資料型別
當前DashVector支援Python的4種基礎資料型別:
-
str
-
float
-
int
-
bool
重要
Python的int型別可表達無限大小的整數,當前DashVector僅支援32位整數,範圍為-2,147,483,648~2,147,483,647,需要使用者自行保證資料未溢位。
比較運算子
透過Field 比較運算子 常量
的組合生成比較表示式,說明及示例如下:
成員運算子
透過Field 成員運算子 常量
的組合生成比較表示式,說明及示例如下:
字串運算子
透過Field 字串運算子 常量的組合生成匹配表示式,說明及示例如下:
邏輯運算子
邏輯運算子用於組合多個表示式。
說明
可透過括號()
組合邏輯運算子,()
擁有更高優先順序,如:expr1 and (expr2 or expr3)
,會優先計算(expr2 or expr3)