RAG實戰6-如何在LlamaIndex中使用自己搭建的API

一蓑烟雨度平生發表於2024-03-14

原文網址 : https://www.cnblogs.com/yourenbo/p/18073309

RAG實戰6-如何在LlamaIndex使用自己搭建的大模型API

在搭建一個大模型API服務中，我們介紹瞭如何使用SWIFT框架搭建一個大模型API服務。在RAG實戰1-5中，我們一直使用的是本地載入大模型的方式來呼叫大模型，本文將介紹如何在LlamaIndex中使用自己搭建的大模型API。

LlamaIndex支援部分廠商的API配置，如OpenAI，但我們想使用的是自己在伺服器上搭建的API服務，這個時候需要我們定製一個LLM類，程式碼如下：

from typing import Any
from llama_index.core import PromptTemplate, Settings, StorageContext, load_index_from_storage
from llama_index.core.base.llms.types import LLMMetadata, CompletionResponse, CompletionResponseGen
from llama_index.core.llms import CustomLLM
from llama_index.core.llms.callbacks import llm_completion_callback
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from swift.llm import get_model_list_client, XRequestConfig, inference_client

# API
model_list = get_model_list_client()
model_type = model_list.data[0].id
print(f'API model_type: {model_type}')
request_config = XRequestConfig(seed=42)


# 定製自己的LLM類
class BianCangLLM(CustomLLM):
    context_window: int = 4096
    num_output: int = 2048
    model_name: str = "BianCang"

    @property
    def metadata(self) -> LLMMetadata:
        """Get LLM metadata."""
        return LLMMetadata(
            context_window=self.context_window,
            num_output=self.num_output,
            model_name=self.model_name,
        )

    @llm_completion_callback()
    def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse:
        resp = inference_client(model_type, prompt, [], request_config=request_config)
        return CompletionResponse(text=resp.choices[0].message.content)

    @llm_completion_callback()
    def stream_complete(
        self, prompt: str, **kwargs: Any
    ) -> CompletionResponseGen:
        resp = inference_client(model_type, prompt, [], request_config=request_config)
        response = ""
        for token in resp.choices[0].message.content:
            response += token
            yield CompletionResponse(text=response, delta=token)


# 定義system prompt
SYSTEM_PROMPT = """你是一個醫療人工智慧助手。"""
query_wrapper_prompt = PromptTemplate(
    "[INST]<<SYS>>\n" + SYSTEM_PROMPT + "<</SYS>>\n\n{query_str}[/INST] "
)

# 定義qa prompt
qa_prompt_tmpl_str = (
    "上下文資訊如下。\n"
    "---------------------\n"
    "{context_str}\n"
    "---------------------\n"
    "請根據上下文資訊而不是先驗知識來回答以下的查詢。"
    "作為一個醫療人工智慧助手，你的回答要儘可能嚴謹。\n"
    "Query: {query_str}\n"
    "Answer: "
)
qa_prompt_tmpl = PromptTemplate(qa_prompt_tmpl_str)

# 使用自定義的LLM API
Settings.llm = BianCangLLM()

# 使用llama-index-embeddings-huggingface構建本地embedding模型
Settings.embed_model = HuggingFaceEmbedding(
    model_name="E:\\LLMs\\bge-base-zh-v1.5"
)

# 從儲存檔案中讀取embedding向量和向量索引
storage_context = StorageContext.from_defaults(persist_dir="doc_emb")
index = load_index_from_storage(storage_context)

# 構建查詢引擎
query_engine = index.as_query_engine(similarity_top_k=5)

# 更新查詢引擎中的prompt template
query_engine.update_prompts(
    {"response_synthesizer:text_qa_template": qa_prompt_tmpl}
)

# 查詢獲得答案
response = query_engine.query("不耐疲勞，口燥、咽乾可能是哪些證候？")
print(response)

程式碼的核心是實現BianCangLLM類，該類繼承自LlamaIndex的CustomLLM類。我們需要重寫父類中的def metadata(self) -> LLMMetadata、def complete(self, prompt: str, **kwargs: Any) -> CompletionResponse、def stream_complete(self, prompt: str, **kwargs: Any) -> CompletionResponseGen:。其中，metadata負責定義大模型的一些引數屬性；complete負責呼叫大模型API服務並直接返回響應；stream_complete負責呼叫大模型API服務並以流式輸出的形式返回響應。

執行程式碼，同樣可以得到類似於之前的效果：

根據提供的上下文資訊，口燥、咽乾的症狀可能與以下幾個中醫證候相關：

1. 津液不足證（4.6.1.1）：由於津液生成不足或體內燥熱，可能導致口眼喉鼻乾燥。

2. 津虧熱結證（4.6.3.2）：津液虧虛加上熱邪內結，也會出現口燥咽乾的表現。

3. 津液虧涸證（4.6.1.2）：津液虧損嚴重時，口乾、唇裂、鼻燥、舌燥是其特徵，可能包括咽乾。

4. 燥幹清竅證（3.6.3.2）：氣候乾燥導致的津液耗損，會引起口鼻咽喉乾燥。

5. 津傷化燥證（6.3.1）：燥熱內蘊或內熱化燥可能引起口乾舌燥，伴有多尿、消瘦等症狀。

因此，這些證候都可能與不耐疲勞和口燥咽乾的臨床表現相關，但具體診斷需要結合其他症狀和中醫辨證原則。建議患者就診中醫師以獲取專業診斷。

好處是，我們不需要每次啟動RAG應用時都載入一遍大模型權重了。

RAG實戰2-如何使用LlamaIndex儲存和讀取向量
2024-03-06
AIIndex
LlamaIndex RAG 和ReAct結合使用
2024-05-22
AIIndexReact
檢索增強生成(Retrieval-augmented Generation,RAG)實戰1-基於LlamaIndex構建第一個RAG應用
2024-03-02
AIIndex
RAG實戰4-RAG過程中發生了什麼？
2024-03-09
檢索增強生成(RAG)實踐：基於LlamaIndex和Qwen1.5搭建智慧問答系統
2024-05-07
AIIndex
RAG-GPT實踐過程中遇到的挑戰
2024-05-27
GPT
如何在本地使用AI檢索增強生成（RAG）
2024-10-31
AI
RAG實戰5-自定義prompt
2024-03-11
構建RAG應用-day02: prompt技巧總結 llamaIndex入門
2024-04-21
AIIndex
【RAG 專案實戰 06】使用 LangChain 結合 Chainlit 實現文件問答
2024-11-25
LangChain
如何在spring boot 使用 gitlab的Api
2022-07-19
Spring BootGitlabAPI
搭建一個自己的 Laravel API 腳手架 - Delighture
2019-11-25
LaravelAPI
使用github搭建自己的maven庫
2018-12-15
GithubMaven
RAG應用開發實戰(01)-RAG應用框架和解析器
2024-04-11
框架
Elasticsearch 入門實戰(8)--REST API 使用二(Search API)
2024-07-21
ElasticsearchRESTAPI
使用搬瓦工快速搭建自己的VPN
2018-09-14
C# 使用Fluent API 建立自己的DSL
2021-12-23
C#API
如何在 Kubernetes 環境中搭建 MySQL（四）：使用 St
2021-09-09
MySql
RAG中late chunking的實驗效果測試
2024-11-20
如何在鐵威馬NAS上使用自己的域名實現HTTPS訪問
2021-07-19
HTTP
如何在CentOS7上搭建自己的GitLab倉庫詳解？
2024-02-06
CentOSGitlab
在 Laravel 中 Jwt 的使用與基礎 API 開發的搭建
2019-08-14
LaravelJWTAPI
使用搬瓦工(bandwagonhost)搭建自己的梯子(VPN)
2019-01-18
Go
使用elasticsearch搭建自己的搜尋系統
2020-05-11
Elasticsearch
docker學習及專案應用實戰（五搭建自己的私有倉庫）
2021-01-02
Docker
TS版LangChain實戰：基於文件的增強檢索（RAG）
2023-11-28
LangChain
一文教會你如何在內網搭建一套屬於自己小組的線上 API 文件？
2022-12-03
內網API
如何在測試環境中實現 API 模擬呼叫
2024-09-11
API
如何在 Apache Flink 中使用 Python API？
2019-09-11
ApachePythonAPI
使用 TiDB Vector 搭建 RAG 應用 - TiDB 文件問答小助手
2024-06-04
TiDB
【RAG 專案實戰 04】新增多輪對話能力
2024-11-23
【RAG 專案實戰 05】重構：封裝程式碼
2024-11-24
封裝
使用Cloudflare Worker搭建自己的AI繪畫工具
2024-08-24
CloudAI
Elasticsearch 入門實戰(9)--Java API Client 使用二
2024-07-28
ElasticsearchJavaAPIclient
python中的裝飾器的使用實戰
2021-09-11
Python
企業使用Hadoop的重大挑戰：如何在HDFS中組織和使用資料？
2018-09-28
Hadoop
讓你在 API 設計中少踩坑的實戰分享
2018-04-12
API
使用WordPress搭建一個專屬自己的部落格
2020-10-27

RAG實戰6-如何在LlamaIndex中使用自己搭建的API

RAG實戰6-如何在LlamaIndex使用自己搭建的大模型API

相關文章