RAG實戰2-如何使用LlamaIndex儲存和讀取向量

一蓑烟雨度平生發表於2024-03-06

原文網址 : https://www.cnblogs.com/yourenbo/p/18057088

RAG實戰2-如何使用LlamaIndex儲存和讀取embedding向量

本文是檢索增強生成(Retrieval-augmented Generation,RAG)實戰1-基於LlamaIndex構建第一個RAG應用的續集，在閱讀本文之前請先閱讀前篇。

在前篇中，我們介紹瞭如何使用LlamaIndex構建一個非常簡單的RAG應用，初步瞭解了LlamaIndex構建RAG應用的大體流程。在執行前篇的程式時，我們會發現兩個令人頭痛的問題：

使用llama-index-llms-huggingface構建本地大模型時，會花費相當一部分時間。
在對文件進行切分，將切分後的片段轉化為embedding向量，構建向量索引時，會花費大量的時間。

上面兩個問題雖然不會影響程式的使用，但是嚴重影響了我們的除錯。試想一下，如果每次修改幾行程式碼就要等待幾分鐘啟動程式，那確實有點折磨人。

在搭建一個大模型API服務中，我們介紹瞭如何使用SWIFT框架搭建一個大模型API服務，這很好地解決了第一個問題。我們可以將構建本地大模型替換為API服務，這樣就不用每次啟動程式時都重新載入一遍模型權重了。不過為了方便演示，本文仍使用本地構建的方式載入大模型。本文要解決的痛點是第二個問題。

對於第二個問題，很容易就能想到可以將構建好的embedding向量和向量索引儲存在檔案或資料庫(如Milvus向量資料庫)中，然後在需要時從檔案或資料庫中直接讀取這些資料。

儲存

下面的程式碼展示瞭如何使用LlamaIndex將embedding向量和向量索引儲存到檔案中。

import logging
import sys
import torch
from llama_index.core import PromptTemplate, Settings, SimpleDirectoryReader, VectorStoreIndex
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.huggingface import HuggingFaceLLM

# 定義日誌
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

# 定義system prompt
SYSTEM_PROMPT = """You are a helpful AI assistant."""
query_wrapper_prompt = PromptTemplate(
    "[INST]<<SYS>>\n" + SYSTEM_PROMPT + "<</SYS>>\n\n{query_str}[/INST] "
)

# 使用llama-index建立本地大模型
llm = HuggingFaceLLM(
    context_window=4096,
    max_new_tokens=2048,
    generate_kwargs={"temperature": 0.0, "do_sample": False},
    query_wrapper_prompt=query_wrapper_prompt,
    tokenizer_name='/yldm0226/models/Qwen1.5-14B-Chat',
    model_name='/yldm0226/models/Qwen1.5-14B-Chat',
    device_map="auto",
    model_kwargs={"torch_dtype": torch.float16},
)
Settings.llm = llm

# 使用llama-index-embeddings-huggingface構建本地embedding模型
Settings.embed_model = HuggingFaceEmbedding(
    model_name="/yldm0226/RAG/BAAI/bge-base-zh-v1.5"
)

# 讀取文件
documents = SimpleDirectoryReader("document").load_data()
# 對文件進行切分，將切分後的片段轉化為embedding向量，構建向量索引
index = VectorStoreIndex.from_documents(documents, transformations=[SentenceSplitter(chunk_size=256)])
# 將embedding向量和向量索引儲存到檔案中
index.storage_context.persist(persist_dir='doc_emb')
# 構建查詢引擎
query_engine = index.as_query_engine(similarity_top_k=5)
# 查詢獲得答案
response = query_engine.query("不耐疲勞，口燥、咽乾可能是哪些證候？")
print(response)

關鍵程式碼為index.storage_context.persist(persist_dir='doc_emb')，其中persist_dir是儲存路徑。

執行上述程式碼，我們可以得到以下輸出：

從提供的中醫臨床證候資訊來看，口燥、咽乾的症狀可能與以下證候相關：

1. 津液不足證：由於津液生成不足或者體內燥熱導致，表現為口眼喉鼻乾燥，咽乾是其中的一個症狀。

2. 津虧熱結證：津液虧虛加上熱邪內結，也可能出現口燥和咽乾。

3. 津液虧涸證：嚴重的津液虧損可能導致口唇乾燥、咽部乾燥，伴隨其他嚴重脫水症狀。

4. 燥幹清竅證：氣候乾燥或體質原因引起的津液缺乏，口鼻咽喉乾燥也是其特徵。

5. 津傷化燥證：燥熱內蘊或內熱化燥損傷津液，也會出現口燥、頻飲但不解渴的現象。

因此，這些證候都有可能與不耐疲勞和口燥、咽乾的症狀相符合，需要結合其他臨床表現來確定具體的證候型別。建議在中醫診斷中由專業醫生根據全人情況判斷。

我們找到剛才定義的persist_dir所在的路徑，可以發現該路徑下有以下幾個檔案：

default_vector_store.json：用於儲存embedding向量。
docstore.json：用於儲存文件切分出來的片段。
graph_store.json：用於儲存知識圖資料。
image__vector_store.json：用於儲存影像資料。
index_store.json：用於儲存向量索引。

在上述程式碼中，我們只用到了純文字文件，所以生成出來的graph_store.json和image__vector_store.json中沒有資料。

讀取

在將embedding向量和向量索引儲存到檔案中後，我們就不需要重複地執行對文件進行切分，將切分後的片段轉化為embedding向量，構建向量索引的操作了。以下程式碼演示瞭如何使用LlamaIndex讀取結構化檔案中的embedding向量和向量索引資料：

import logging
import sys
import torch
from llama_index.core import PromptTemplate, Settings, StorageContext, load_index_from_storage
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.llms.huggingface import HuggingFaceLLM

# 定義日誌
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))

# 定義system prompt
SYSTEM_PROMPT = """You are a helpful AI assistant."""
query_wrapper_prompt = PromptTemplate(
    "[INST]<<SYS>>\n" + SYSTEM_PROMPT + "<</SYS>>\n\n{query_str}[/INST] "
)

# 使用llama-index建立本地大模型
llm = HuggingFaceLLM(
    context_window=4096,
    max_new_tokens=2048,
    generate_kwargs={"temperature": 0.0, "do_sample": False},
    query_wrapper_prompt=query_wrapper_prompt,
    tokenizer_name='/yldm0226/models/Qwen1.5-14B-Chat',
    model_name='/yldm0226/models/Qwen1.5-14B-Chat',
    device_map="auto",
    model_kwargs={"torch_dtype": torch.float16},
)
Settings.llm = llm

# 使用llama-index-embeddings-huggingface構建本地embedding模型
Settings.embed_model = HuggingFaceEmbedding(
    model_name="/yldm0226/RAG/BAAI/bge-base-zh-v1.5"
)

# 從儲存檔案中讀取embedding向量和向量索引
storage_context = StorageContext.from_defaults(persist_dir="doc_emb")
index = load_index_from_storage(storage_context)
# 構建查詢引擎
query_engine = index.as_query_engine(similarity_top_k=5)
# 查詢獲得答案
response = query_engine.query("不耐疲勞，口燥、咽乾可能是哪些證候？")
print(response)

關鍵程式碼為storage_context = StorageContext.from_defaults(persist_dir="doc_emb")和index = load_index_from_storage(storage_context),StorageContext.from_defaults(persist_dir="doc_emb")表示從doc_emb目錄中讀取embedding向量和向量索引，load_index_from_storage(storage_context)表示根據儲存的embedding向量和向量索引重新構建檢索索引。

執行上述程式，可以得到以下輸出：

從提供的中醫臨床證候資訊來看，口燥、咽乾的症狀可能與以下證候相關：

1. 津液不足證：由於津液生成不足或者體內燥熱導致，表現為口眼喉鼻乾燥，咽乾是其中的一個症狀。

2. 津虧熱結證：津液虧虛加上熱邪內結，也可能出現口燥和咽乾。

3. 津液虧涸證：嚴重的津液虧損可能導致口唇乾燥、咽部乾燥，伴隨其他嚴重脫水症狀。

4. 燥幹清竅證：氣候乾燥或體質原因引起的津液缺乏，口鼻咽喉乾燥也是其特徵。

5. 津傷化燥證：燥熱內蘊或內熱化燥損傷津液，也會出現口燥、頻飲但不解渴的現象。

因此，這些證候都有可能與不耐疲勞和口燥、咽乾的症狀相符合，需要結合其他臨床表現來確定具體的證候型別。建議在中醫診斷中由專業醫生根據全人情況判斷。

需要注意的是，為了輸出的可復現性，我們將大模型的temperature設定為0，do_sample設定為False，所以兩次得到的輸出基本相同；如果將temperature設定為大於0的小數，do_sample設定為True，大模型每次的輸出可能都是不一樣的。另外，如果你在實驗時獲得的輸出與文中的輸出不一致，這也是正常的，這與多個因素有關。

RAG實戰6-如何在LlamaIndex中使用自己搭建的API
2024-03-14
AIIndexAPI
LlamaIndex RAG 和ReAct結合使用
2024-05-22
AIIndexReact
讀取和儲存Excel表
2019-02-21
Excel
（slam工具）1檔案讀取和儲存
2024-06-17
SLAM
在 SAP BTP Kyma Runtime 上使用 Redis 讀取和儲存資料
2021-06-04
Redis
檢索增強生成(Retrieval-augmented Generation,RAG)實戰1-基於LlamaIndex構建第一個RAG應用
2024-03-02
AIIndex
Spring AI中使用嵌入模型和向量資料庫實現RAG應用
2024-03-17
SpringAI模型資料庫
Mybatis讀取和儲存json型別的資料
2024-09-12
MyBatisJSON型別
【Python3網路爬蟲開發實戰】5-資料儲存-2-關係型資料庫儲存-1 MySQL儲存
2018-03-21
Python爬蟲資料庫MySql
NOPI讀取Word模板並儲存
2018-08-04
一文詳解 JuiceFS 讀效能：預讀、預取、快取、FUSE 和物件儲存
2024-07-26
UI快取物件
如何使用HBase？大資料儲存的兩個實戰場景
2018-09-04
大資料
c++ (2-0) 從txt讀取和儲存資料
2024-08-17
C++
C++(2) 從yml或者txt讀取和儲存資料
2024-07-15
C++
Excel 讀取圖片並獲取儲存路徑
2021-01-12
Excel
實戰2-注入
2018-08-03
RAG學習--pdf讀取與切割
2024-05-12
golang 讀取切分儲存byte流檔案
2019-02-16
Golang
Machine Learning (3) - 介紹兩種儲存和讀取模型的方式
2019-04-14
Mac模型
Redis資料儲存和讀寫
2024-06-02
Redis
實用小程式（1）之讀取xml並儲存為txt文字
2020-11-22
XML
檢索增強生成(RAG)實踐：基於LlamaIndex和Qwen1.5搭建智慧問答系統
2024-05-07
AIIndex
釋出 mbtiles 儲存的向量瓦片
2021-09-02
Springboot整合MongoDB儲存檔案、讀取檔案
2023-04-14
Spring BootMongoDB
java+pgsql實現儲存圖片到資料庫，以及讀取資料庫儲存的圖片
2020-11-13
JavaSQL資料庫
DataLeap資料資產實戰：如何實現儲存最佳化？
2023-04-17
3-03. 實現切換場景儲存和讀取場景中的建造物品
2024-04-17
spark學習筆記--資料讀取與儲存
2018-07-09
Spark筆記
Python中檔案讀取與儲存程式碼示例
2024-04-15
Python
java讀取倒序儲存的int型資料
2020-10-14
Java
Spark(16) -- 資料讀取與儲存的主要方式
2020-10-05
Spark
解決opencv讀取、儲存影像時路徑包含中文和特殊符號
2020-12-22
OpenCV符號
如何加密傳輸和儲存使用者密碼
2018-05-11
加密密碼
使用Spring Data建立只讀儲存庫 | Baeldung
2021-03-23
Spring
RAG實戰4-RAG過程中發生了什麼？
2024-03-09
大資料儲存平臺之異構儲存實踐深度解讀
2018-06-06
大資料
區塊鏈資訊儲存是如何實現安全儲存
2020-08-20
區塊鏈
Flink 1.9 實戰：使用 SQL 讀取 Kafka 並寫入 MySQL
2019-09-06
KafkaMySql

RAG實戰2-如何使用LlamaIndex儲存和讀取向量

RAG實戰2-如何使用LlamaIndex儲存和讀取embedding向量

儲存

讀取

相關文章