RAG知識庫的可靠性評估（二）

AiFly發表於2024-04-01

原文網址 : https://www.cnblogs.com/softlin/p/18106832

上篇檔案介紹了RAG最佳化與評估的基本概念，以及使用TruLens-Eval在沒有Ground-truth的情況下評估RAG應用。本篇檔案主要是使用Ragas對RAG應用進行評估；
使用了Gagas生成合成測試資料集，在只有知識庫文件並沒有Ground-truth（真實答案）的情況下讓想評估該知識庫文件應用到RAG的的效果如何，這時可以用Ragas生成包含question、context、Ground-truth（真實答案）的資料集。即可在有Ground-truth（真實答案）的情況下評估RAG。

RAG包含兩個主要流程，向量檢索、響應生成。Ragas把這兩個流程評估指標分為：評價檢索包括context_relevancy和context_recall）和生成指標（faithfulness和answer_relevancy）。
Context_relevancy：上下文精度，上下文Context與Ground-truth的相關性越高RAG效果越好。
Context_recall：上下文召回率，是否檢索到回答問題所需的所有相關資訊。根據真實答案(ground truth)估算上下文召回率(Context recall)，分析真實答案中的每個句子以確定它是否可以歸因於檢索到的Context。
Faithfulness：答案的事實準確性，答案中提出的所有基本事實都可以從給定的上下文context中推斷出來，則生成的答案被認為是忠實的。
Answer Relevance: 答案相關性，度量LLM的Response答案與Query提問的相關度。如分低，可能反應了回答不對題。

提示詞(prompt)自動適配

在Ragas中預設的Prompt是英文的，如果直接使用生成資料集會出現一些英文資料，所以需要將Ragas內建的Prompt翻譯為中文後使用。在Ragas中也提供了Prompt自動適配其他語言的支援；

noun_extractor = Prompt(
    name="noun_extractor",
    instruction="Extract the noun from given sentence",
    examples=[{
        "sentence":"The sun sets over the mountains.",
        "output":{"nouns":["sun", "mountains"]}
    }],
    input_keys=["sentence"],
    output_key="output",
    output_type="json"
)
#生成中文提示詞
adapted_prompt = 
qa_prompt.adapt(language="chinese",llm=openai_model)
#儲存提示詞
adapted_prompt.save()
print(adapted_prompt.to_string())

#載入指定提示詞
Prompt._load(name="question_generation",language="chinese",cache_dir='/home/linx/.cache/ragas')

Ragas使用LLM將提示詞翻譯成為目標語言提示詞，還可以儲存所翻譯的提示詞到磁碟，預設路徑為：/home/linx/.cache/ragas，儲存完成後後續可以直接載入使用；

合成測試資料集

在Ragas中生成合成資料集也會是使用LLM配合指定的Prompt用於資料集的生成，還可以生成不同難度級別的問題，生成的資料集按不同難度級別分佈，給定LLM、配置文件集即可，其生成原理受到Evol-Inform啟發。Ragas中為question_type定義了simple、reasoning、multi_context、conditional四種級別的問題，保證了資料集的多樣性。

simple：簡單問題，生成的問題在上下文中得到解答。
reasoning：推理問題，該問題的答案從上下文中推理得到。
multi_context：多上下文問題，問題經過重寫，問題解答需要從多個上下文中獲取資訊。
conditional：條件問題，問題經過重寫，透過影響上下文的條件使問題複雜化。

testset_generator = TestsetGenerator.from_langchain(
    generator_llm=generator_llm,
    critic_llm=generator_llm,
    embeddings=embedding_model
)

language = "chinese"
testset_generator.adapt(language,evolutions=[simple, 
reasoning,conditional,multi_context])

testset_generator.save(evolutions=[simple, reasoning, 
multi_context,conditional])

distributions = {
simple:0.4
reasoning:0.2,
multi_context:0.2,
conditional:0.2
}

synthetic_dataset = 
testset_generator.generate_with_langchain_docs(
    documents=load_documents(),
    test_size=10,
    with_debugging_logs=True
)

from datasets import Dataset

print(synthetic_dataset.to_pandas().head()) 
print('-------------------')
Dataset.save_to_disk(synthetic_dataset.to_dataset(),'testset')

評估合成測試資料集

生成的資料集沒有經過解答未包含answer欄位，這裡打算把ground_truth（真實答案）當做answer。

from datasets import load_from_disk,Dataset
#評估生成的資料集
# loading the V2 dataset
ds = load_from_disk("testset")
df = ds.to_pandas()
#複製ground_truth列，由於資料集不存在answer列，將ground_truth複製為該列
answer = df['ground_truth'].copy()
df['answer'] =answer
new_dataset = Dataset.from_pandas(df)

# ds=new_dataset.to_pandas()
# ds.head()

from ragas.metrics import (
    answer_relevancy,
    faithfulness,
    context_recall,
    context_precision,
)
from ragas import evaluate

result = evaluate(
   llm=generator_llm,
    dataset=new_dataset,
    embeddings=embedding_model,
    metrics=[
        context_precision,
        faithfulness,
        answer_relevancy,
        context_recall,
    ],
)
df = result.to_pandas()
print(df)

對資料集的評估結果指標如下，這裡只列出了部分欄位：

文章首發地址：https://mp.weixin.qq.com/s/RQ-3nJQzSBzEW0jl3SMEXg

RAG應用評估
2024-11-24
【知識分享】漏洞評估掃描的步驟
2022-11-07
RAG知識庫之針對長文件的Raptor索引
2024-08-05
APT索引
RAG知識庫最佳化之Rerank應用
2024-04-15
LinkAI RAG知識庫平臺最佳化之路
2024-07-31
AI
基於AI知識庫RAG的綜合視窗系統
2024-09-15
AI
更強的RAG：向量資料庫和知識圖譜的結合
2024-10-10
資料庫
有沒有帶有本地Web介面的真正RAG知識庫？
2024-05-08
Web
構建RAG應用-day05: 如何評估 LLM 應用評估並最佳化生成部分評估並最佳化檢索部分
2024-04-27
KGB知識圖譜軟體實現上市企業的風險評估
2019-12-19
構建RAG應用-day06: 個人知識庫助手專案
2024-04-29
整合文字和知識圖譜嵌入提升RAG的效能
2024-05-03
分散式資料庫的健康評估
2023-01-05
分散式資料庫
如何選擇評估 JS 庫
2019-04-12
JS
手把手教你搭建自己的Raneto知識庫（二）
2021-08-03
RAG 示例：使用 langchain、Redis、llama.cpp 構建一個 kubernetes 知識庫問答
2024-11-19
LangChainRedis
Graph RAG: 知識圖譜結合 LLM 的檢索增強
2023-10-11
如何評估跨網檔案安全交換系統的安全性和可靠性？
2024-08-26
爬知識星球，製作自己的知識倉庫
2019-03-27
豆包大模型團隊釋出全新Detail Image Caption評估基準，提升VLM Caption評測可靠性
2024-07-15
大模型AIAPT
【高階RAG技巧】在大模型知識庫問答中增強文件分割與表格提取
2024-04-18
大模型
【公益譯文】NIST評估資訊保安持續監控專案指南：評估方法（二）
2020-09-29
PgSql 知識庫
2024-03-28
SQL
知識雜庫
2024-03-18
人工智慧（二、知識表示）——1.知識表示與知識表示的概念
2020-10-06
人工智慧
評估指標與評分（上）：二分類指標
2022-05-28
指標
【等保小知識】等保二級是否需要做密評？什麼是密評？
2022-01-20
資料庫效能需求分析及評估模型
2018-05-14
資料庫模型
OCR演算法識別率怎麼評估？
2020-12-11
演算法
知識庫終極指南：為什麼您的企業需要知識庫？
2023-11-01
Python知識點（二）
2019-02-26
Python
二維碼知識
2018-07-16
JavaSE小知識（二）
2020-11-20
Java
自我評估
2024-09-06
可用於資料庫對比評估的FURPS+模型
2023-03-03
資料庫模型
六種GAN評估指標的綜合評估實驗，邁向定量評估GAN的重要一步
2018-07-02
指標
二叉樹的知識點
2024-08-19
二叉樹
我對《RAG/大模型/非結構化資料知識庫類產品》技術架構的思考、雜談
2024-07-03
大模型架構

RAG知識庫的可靠性評估（二）

提示詞(prompt)自動適配

合成測試資料集

評估合成測試資料集

相關文章