DashText-快速開始

DashVector發表於2024-10-30

原文網址 : https://www.cnblogs.com/DashVector/p/18515412

快速開始

DashText，是向量檢索服務DashVector推薦使用的稀疏向量編碼器（Sparse Vector Encoder），DashText可透過BM25演算法將原始文字轉換為稀疏向量（Sparse Vector）表達，透過DashText可大幅度簡化使用DashVector[關鍵詞感知檢索]能力。

說明

需要使用您的api-key替換示例中的YOUR_API_KEY、您的Cluster Endpoint替換示例中的YOUR_CLUSTER_ENDPOINT，程式碼才能正常執行。
本示例僅對Sparse Vector進行功能演示，請根據實際情況設定您的向量維度。簡化起見，本文示例程式碼中將向量（Dense Vector）維度設定為4。

Step1. 建立支援Sparse Vector的Collection

Python示例

import dashvector

client = dashvector.Client(api_key='YOUR_API_KEY', endpoint='YOUR_CLUSTER_ENDPOINT')
assert client

ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')
assert ret

collection = client.get('hybrid_collection')
assert collection

Java示例

import com.aliyun.dashvector.DashVectorClient;
import com.aliyun.dashvector.DashVectorCollection;
import com.aliyun.dashvector.models.requests.CreateCollectionRequest;
import com.aliyun.dashvector.models.responses.Response;
import com.aliyun.dashvector.proto.CollectionInfo;

DashVectorClient client = 
  new DashVectorClient("YOUR_API_KEY", "YOUR_CLUSTER_ENDPOINT");

CreateCollectionRequest request = CreateCollectionRequest.builder()
            .name("hybrid_collection")
            .dimension(4)
            .metric(CollectionInfo.Metric.dotproduct)
            .dataType(CollectionInfo.DataType.FLOAT)
            .build();
      
Response<Void> response = client.create(request);
System.out.println(response);

DashVectorCollection collection = client.get("hybrid_collection");

重要

僅內積度量（metric='dotproduct'）支援Sparse Vector功能

Step2. 建立SparseVectorEncoder

使用內建Encoder

Python示例

from dashtext import SparseVectorEncoder

encoder = SparseVectorEncoder.default()

Java示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;

SparseVectorEncoder encoder = SparseVectorEncoder.getDefaultInstance();

說明

內建Encoder使用中文Wiki語料進行訓練，採用Jieba進行中文分詞

基於自有語料建立Encoder

Python示例

from dashtext import SparseVectorEncoder

encoder = SparseVectorEncoder()

# （全部）自有語料
corpus = [
    "向量檢索服務DashVector基於阿里雲自研的高效向量引擎Proxima核心，提供具備水平擴充能力的雲原生、全託管的向量檢索服務",
    "DashVector將其強大的向量管理、向量查詢等多樣化能力，透過簡潔易用的SDK/API介面透出，方便被上層AI應用迅速整合",
    "從而為包括大模型生態、多模態AI搜尋、分子結構分析在內的多種應用場景，提供所需的高效向量檢索能力",
    "簡單靈活、開箱即用的SDK，使用極簡程式碼即可實現向量管理",
    "自研向量相似性比對演算法，快速高效穩定服務",
    "Schema-free設計，透過Schema實現任意條件下的組合過濾查詢"
]

# 基於自有語料訓練Encoder
encoder.train(corpus)

Java示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;
import java.util.*;

SparseVectorEncoder encoder = new SparseVectorEncoder();

//（全部）自有語料
List<String> corpus = Arrays.asList(
  "向量檢索服務DashVector基於阿里雲自研的高效向量引擎Proxima核心，提供具備水平擴充能力的雲原生、全託管的向量檢索服務",
  "DashVector將其強大的向量管理、向量查詢等多樣化能力，透過簡潔易用的SDK/API介面透出，方便被上層AI應用迅速整合",
  "從而為包括大模型生態、多模態AI搜尋、分子結構分析在內的多種應用場景，提供所需的高效向量檢索能力",
  "簡單靈活、開箱即用的SDK，使用極簡程式碼即可實現向量管理",
  "自研向量相似性比對演算法，快速高效穩定服務",
  "Schema-free設計，透過Schema實現任意條件下的組合過濾查詢"
);

// 基於自有語料訓練Encoder
encoder.train(corpus);

說明

內建Encoder可直接使用，無需使用原始語料進行訓練，使用起來更加方便，同時泛化能力較強。但面對原始語料中專業術語較多等場景，準確性偏弱
基於自有語料建立Encoder，需要預先根據（全部）原始語料進行訓練，準確性較高，自有語料建立Encoder具體使用可參考進階使用
使用者需根據自身業務場景和需求來選擇Encoder，對於特定領域（大量專屬詞彙）的場景推薦基於自有語料建立Encoder

Step3. 插入帶有Sparse Vector的Doc

Python示例

from dashvector import Doc

document = "向量檢索服務DashVector基於阿里雲自研的高效向量引擎Proxima核心，提供具備水平擴充能力的雲原生、全託管的向量檢索服務。"
doc_sparse_vector = encoder.encode_documents(document)

print(doc_sparse_vector)
# 基於內建Encoder的output: 
# {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}

collection.insert(Doc(
    id='A',
    vector=[0.1, 0.2, 0.3, 0.4],
    sparse_vector=doc_sparse_vector
))

Java示例

String document = "向量檢索服務DashVector基於達摩院自研的高效向量引擎Proxima核心，提供具備水平擴充能力的雲原生、全託管的向量檢索服務。";
Map<Long, Float> sparseVector = encoder.encodeDocuments(document);

System.out.println(sparseVector);
// 基於內建Encoder的output: 
// {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}

Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();

// 構建帶有Sparse Vector的Doc
Doc doc = Doc.builder()
  .id("28")
  .sparseVector(sparseVector)
  .vector(vector)
  .build();

// 插入帶有Sparse Vector的Doc
Response<Void> response = collection.insert(InsertDocRequest.builder().doc(doc).build());

Step4. 關鍵詞感知的向量檢索

Python示例

query = "什麼是向量檢索服務？"
sparse_vector = encoder.encode_queries(query)

print(sparse_vector)
# 基於內建Encoder的output: 
# {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

docs = collection.query(
    vector=[0.1, 0.1, 0.1, 0.1],
    sparse_vector=sparse_vector
)

Java示例

String query = "什麼是向量檢索服務？";

Map<Long, Float> sparseVector = encoder.encodeQueries(query);

System.out.println(sparseVector);
// 基於內建Encoder的output: 
// {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();
      	
// 構建QueryDocRequest 
QueryDocRequest request = QueryDocRequest.builder()
  .vector(vector)
  .sparseVector(sparseVector)
  .topk(100)
  .includeVector(true)
  .build();

Response<List<Doc>> response = collection.query(request);
System.out.println(response);

Step5. 基於權重的關鍵詞+語義檢索

Python示例

from dashtext import combine_dense_and_sparse

query = "什麼是向量檢索服務？"
sparse_vector = encoder.encode_queries(query)

# 權重因子
alpha = 0.7
dense_vector = [0.1, 0.1, 0.1, 0.1]
scaled_dense_vector, scaled_sparse_vector = combine_dense_and_sparse(dense_vector, sparse_vector, alpha)

docs = collection.query(
    vector=scaled_dense_vector,
    sparse_vector=scaled_sparse_vector
)

Java示例

String query = "什麼是向量檢索服務？";

Map<Long, Float> sparseVector = encoder.encodeQueries(query);

System.out.println(sparse_vector);
// 基於內建Encoder的output: 
// {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}

Vector denseVector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();

// 透過alpha因子調整稠密向量和稀疏向量
float alpha = 0.1;
sparse_vector.forEach((key, value) -> sparse_vector.put(key, value * (1 - alpha)));
denseVector = Vector.builder().value(
            denseVector.getValue().stream().map(number -> number.floatValue() * alpha).collect(Collectors.toList())
    ).build();

// 構建QueryDocRequest 
QueryDocRequest request = QueryDocRequest.builder()
  .vector(denseVector)
  .sparseVector(sparseVector)
  .topk(100)
  .includeVector(true)
  .build();

Response<List<Doc>> response = collection.query(request);
System.out.println(response);

說明

引數alpha是控制稠密向量距離和稀疏向量距離加權的權重因子，alpha=0.0表示只採用稀疏向量進行距離度量，alpha=1.0表示只採用稠密向量進行距離度量。

API參考

更多DashText API詳情可參考：

Python SDK：https://pypi.org/project/dashtext/

AngularJS快速開始
2019-05-11
AngularJS
dapr快速開始
2021-04-14
SpringCloudConfig-快速開始
2018-08-10
SpringGCCloud
silky微服務快速開始
2021-10-20
微服務
Airflow 中文文件：快速開始
2018-11-28
AI
Cordova快速開始(安卓篇)
2018-06-08
安卓
快速開始HelloWorld和Python之禪
2018-06-10
Python
Draft 文件翻譯 - 快速開始 - 概念
2021-09-09
Raft
從演算法開始[快速排序]
2020-12-25
演算法排序
如何快速開始進行echart元件開發
2024-08-09
元件
Spring Boot系列（一）：Spring Boot快速開始
2020-08-17
Spring Boot
快速開始api開發（一）專案初始化
2022-08-19
API
快速開始api開發（四）登入與認證
2022-08-19
API
gf 框架快速開始骨架 gf-start-kit
2020-04-19
框架
Draft 文件翻譯 - 快速開始 - 基礎API
2021-09-09
RaftAPI
Detectron2 快速開始，使用 WebCam 測試
2021-01-12
Web
快速開始api開發（三）第一個介面-註冊
2022-08-19
API
快速開始構建一個簡單專案
2021-08-20
三個步驟，從零開始快速部署LoRaServer
2022-04-07
Server
快速開始api開發（二）model 程式碼生成與依賴注入
2022-08-19
API依賴注入
快速開始api開發（六）檔案上傳，設定頭像
2022-08-22
API
spring cloud微服務分散式雲架構- Config 快速開始
2019-03-20
SpringCloud微服務分散式架構
快速提升職場效率：從整理任務清單開始
2024-11-14
快速開始api開發（五）定時任務 crontab 和佇列 queue
2022-08-19
API佇列
【Elastic-1】ELK基本概念、環境搭建、快速開始文件
2022-02-25
AST
Go微服務框架go-kratos實戰01：quickstart 快速開始
2022-05-29
Go微服務框架UI
Scaled-YOLOv4 快速開始，訓練自定義資料集
2021-01-09
YOLO
為什麼越來越多的企業開始使用軟體快速開發框架？
2019-07-11
框架
快速成長從寫一份走心的週報開始
2020-05-20
小書MybatisPlus第1篇-整合SpringBoot快速開始增刪改查
2020-07-04
MyBatisSpring Boot
從零開始製作cli工具，快速建立專案腳手架
2019-05-11
軟體測試新人快速入行，從瞭解測試名詞開始
2019-03-28
微軟開始推送Win10 RS5快速預覽版17738
2018-08-15
微軟Win10
微軟開始推送win10 RS5快速預覽版17746
2018-08-27
微軟Win10
MySQL如何快速獲取binlog的開始時間和結束時間
2024-05-11
MySql
微軟開始推送 Win10快速預覽版19577系統更新
2020-03-06
微軟Win10
Java 分散式任務排程平臺：PowerJob 快速開始+配置詳解
2020-07-15
Java分散式
微軟開始推送Win10 RS5快速預覽版17634
2018-03-30
微軟Win10

DashText-快速開始

快速開始

Step1. 建立支援Sparse Vector的Collection

Step2. 建立SparseVectorEncoder

使用內建Encoder

基於自有語料建立Encoder

Step3. 插入帶有Sparse Vector的Doc

Step4. 關鍵詞感知的向量檢索

Step5. 基於權重的關鍵詞+語義檢索

API參考

相關文章