向量資料庫Chromadb的入門資訊

网无忌發表於2024-07-06

原文網址 : https://www.cnblogs.com/netWild/p/18288045

一. 概述

Chromadb是比較年輕的向量資料庫，也是LangChain預設使用的向量資料庫，使用簡單，上手很容易。
官網地址：https://docs.trychroma.com/
Github：https://github.com/chroma-core/chroma

二. 安裝

官網的指南：https://docs.trychroma.com/getting-started

三. 使用模式

記憶體模式

該模式下，資料不會被持久化。

import chromadb
# 建立客戶端
chroma_client = chromadb.Client()
# 建立集合
collection = chroma_client.create_collection(name="my_collection")
# 新增資料
collection.add(
  documents=["Document 1", "Document 2"],
  ids=["id1", "id2"]
)
# 查詢資料
results = collection.query(
  query_texts=["Document"],
  n_results=2
)
print(results)

2. 本地模式

該模式下，可在指定位置建立sqlite資料庫進行持久化。

import chromadb
client = chromadb.PersistentClient(path="/path/to/data")

3. 服務模式

首先啟動Chroma服務：

chroma run --path /db_path

之後在程式中連線該服務：

import chromadb
chroma_client = chromadb.HttpClient(host='localhost', port=8000)

使用服務模式時，客戶端不需要安裝全部的chromadb模組，只需要安裝chromadb-client即可：
pip install chromadb-client
此包是用於服務模式下的輕量級HTTP客戶機，具有最小的依賴佔用。

四. 建立和管理集合

集合（collection）是ChromaDB中儲存嵌入，文件和後設資料的地方，類似於關聯式資料庫中的表（table）。你可以用客戶端物件的create_collection方法建立一個集合，指定一個名稱：
collection = chroma_client.create_collection(name="my_collection")

還有一些其他常用的方法：

# 獲取一個存在的Collection物件
collection = chroma_client.get_collection("testname")

# 如果不存在就建立collection物件，一般用這個更多一點
collection = chroma_client.get_or_create_collection("testname")

# 檢視已有的集合
chroma_client.list_collections()

# 刪除集合
chroma_client.delete_collection(name="my_collection")

五. 向量模型

Chroma預設使用的是all-MiniLM-L6-v2模型來進行embeddings。
也可以直接使用官方預訓練的託管在Huggingface上的模型：

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('model_name')

選擇非常多，可以點選官網檢視每種預訓練模型的詳細資訊：https://www.sbert.net/docs/sentence_transformer/pretrained_models.html

還可以使用其他第三方模型，包括第三方平臺，例如：

openai_ef = embedding_functions.OpenAIEmbeddingFunction(
    api_key="YOUR_API_KEY",
    model_name="text-embedding-ada-002"
)

比較吸引我的是，chromadb還支援整合Ollama中的模型進行embedding：

import chromadb.utils.embedding_functions as embedding_functions

ollama_ef = embedding_functions.OllamaEmbeddingFunction(
    url="http://localhost:11434/api/embeddings",
    model_name="llama2",
)

embeddings = ollama_ef(["This is my first text to embed",
                        "This is my second document"])

記錄一個適合中文向量化的模型：coROM中文通用文字表示模型。
這是阿里旗下的Embedding模型，基於Pytorch的，等以後嘗試載入到Ollama，用起來就更方便了。

六. 連結

ChromaDB python 使用教程及記錄
向量資料庫Chroma極簡教程（含案例）

Elasticsearch和向量資料庫的快速入門
2024-09-15
Elasticsearch資料庫
Milvus向量資料庫入門實踐
2024-05-21
資料庫
向量資料庫
2024-11-24
資料庫
資料庫向量化入門與實現
2022-11-24
資料庫
MongoDB資料庫入門
2022-05-20
MongoDB資料庫
《R語言入門與資料分析》——向量索引
2020-10-02
R語言索引
cache資料庫入門教程
2021-01-01
資料庫
黃東旭：“向量資料庫”還是“向量搜尋外掛 + SQL 資料庫”？
2024-02-15
資料庫SQL
關聯式資料庫很快會替代向量資料庫
2024-07-04
資料庫
向量資料庫落地實踐
2024-04-03
資料庫
Chroma向量資料庫使用案例
2024-03-24
資料庫
向量資料庫技術全景
2024-07-18
資料庫
資料庫事務入門指南
2020-08-07
資料庫
Nodejs教程21：資料庫入門
2019-03-14
NodeJS資料庫
AutoGPT放棄使用向量資料庫
2023-10-12
GPT資料庫
MySQL資料庫入門多例項配置
2019-10-12
MySql資料庫
Redis快取資料庫-快速入門
2023-03-08
Redis快取資料庫
【Python入門】Python資料分析最重要的庫！
2021-11-08
Python
分散式資料庫入門：以國產資料庫 TDSQL 為例
2024-05-29
分散式資料庫SQL
MySQL—-MySQL資料庫入門—-第二章資料庫和表的基本操作
2019-02-20
MySql資料庫
向量資料庫與LLM的整合：實踐指南
2024-03-15
資料庫
向量資料庫Chroma學習記錄
2024-04-13
資料庫
MySQL入門系列：資料庫和表的基本操作
2019-03-07
MySql資料庫
Realm資料庫從入門到“放棄”
2019-03-02
資料庫
瀏覽器資料庫 IndexedDB 入門教程
2018-07-04
瀏覽器資料庫Index
Flask入門到放棄（四）—— 資料庫
2019-06-10
Flask資料庫
Python 資料處理庫 pandas 入門教程
2018-04-17
Python
Oracle資料庫初學者入門教程
2022-04-26
Oracle資料庫
資料庫的資訊保安管理
2018-04-28
資料庫
還不瞭解資料庫？Smartbi一文帶你入門資料庫！
2022-01-20
資料庫
來一場資料整合技術與向量資料庫的“雙向奔赴”！
2024-11-04
資料庫
詞向量入門
2020-05-27
向量資料庫之Lancedb學習記錄
2024-04-15
資料庫
KubeSphere 部署向量資料庫 Milvus 實戰指南
2024-07-30
資料庫
資料庫入門之RDS選擇原則
2019-03-07
資料庫
資料庫入門之RDS與各元件搭配
2018-12-27
資料庫元件
《MySQL 入門教程》第 03 篇管理資料庫
2022-01-26
MySql資料庫
大資料入門
2019-04-08
大資料