组件级别评估：生成

检索器的任务是找到正确的拼图块（相关上下文 (context)），而生成器的任务是将其正确组装成一幅连贯准确的图像，以回答用户的原始问题。即使检索器获取了完全相关的信息，作为生成器的大语言模型（LLM）仍可能出现问题。它可能错误理解上下文，忽略其中大部分，引入检索文档中不存在的信息（尽管有依据仍产生幻觉 (hallucination)），或者未能直接回应用户的查询。因此，评估生成组件是理解RAG系统表现的一个独特而主要的步骤。

在RAG背景下评估生成器，需要衡量LLM综合所提供信息以生成最终答案的程度。我们主要关注两个方面：

评估忠实度

忠实度，在RAG背景下有时被称为事实性或有依据性，衡量生成的答案是否与检索到的上下文 (context)片段中的信息保持一致。忠实的答案不与提供的上下文相矛盾，并避免引入外部知识或虚构细节。

设想您的RAG系统根据检索到的新闻稿回答一个关于公司最新产品发布的问题。

忠实的答案： 总结仅在新闻稿中提及的特性。
不忠实的答案： 提及检索文本中未描述的特性，可能是产生了幻觉 (hallucination)或不恰当地从其通用训练数据中回忆出来。

评估忠实度很重要，因为RAG的一个主要目标是减少幻觉并将回答建立在可验证的数据上。方法包括：

人工评审： 人工评审员将生成的答案与生成期间提供给LLM的特定上下文段落进行比较。这提供了高质量的反馈，但需要大量时间和资源。
LLM作为评判者： 可以提示一个独立且有能力的LLM来评估忠实度。您向它提供原始查询、检索到的上下文和生成的答案，并要求它判断答案是否完全由上下文支持。这种方法比人工评审更具扩展性，但会引入评估者LLM自身的潜在偏见，并且需要为评估者精心设计提示。
自动化检查： 一些方法涉及自动化检查，例如从生成的答案中提取陈述或主张，并通过程序验证它们在所提供上下文中的存在或逻辑蕴含。专门为RAG评估设计的框架通常会根据这些原则纳入自动化忠实度评分。

评估答案相关性

答案相关性评估生成的回答回应原始用户查询的程度。即使答案完全忠实于所提供的上下文 (context)，如果它没有实际回答用户所问的问题，也可能没有帮助。

设想用户询问：“X项目期间面临的主要挑战是什么？”检索器找到详细说明项目时间表和团队成员的文档。

忠实但不相关的答案： “X项目由5名工程师组成的团队在第四季度完成。”（根据上下文，此陈述可能是准确的，但它没有回答用户关于挑战的问题。）
相关的答案： “文档中提到的主要挑战是按时确保组件交付。”（假设此信息存在于上下文中，此答案既忠实又与查询相关。）

相关性确保RAG系统不仅仅是总结检索到的文本，而是有效地使用该文本来满足用户的特定信息需求。评估方法与忠实度评估方法有重叠，但关注点不同：

人工评审： 人们阅读用户查询和生成的答案，判断答案是否直接有效地回应了查询的意图。
LLM作为评判者： 类似于忠实度检查，可以提示评估者LLM根据原始查询对答案的相关性进行评分。提示将强调评估答案是否直接回应了所提出的问题。
嵌入 (embedding)相似度（查询 vs. 答案）： 计算用户查询和生成答案之间的语义相似度（例如，使用文本嵌入上的余弦相似度）有时可以作为相关性的代理指标。然而，这是一种启发式方法。高相似度并不总是保证相关性（答案可能重复问题），低相似度也不总是表明不相关（例如，对复杂问题的简洁“是”答案）。

此图说明了生成组件的两个主要评估点：检查生成的答案是否忠实于检索到的上下文（有依据性），以及它是否与原始用户查询相关（实用性）。

其他生成质量方面

除了忠实度和相关性（它们与RAG特别相关）之外，您还应考虑文本生成质量的标准方面：

简洁性： 答案是否提供了必要信息，而没有包含过多或冗余的细节？它是否根据查询适当简洁或详细？
连贯性和流畅性： 生成的文本是否结构良好、语法正确、易于理解？阅读起来是否自然？标准LLM评估指标（如困惑度，如果适用）或定性人工评估适用于此。
无有害内容： 确保生成的输出遵循安全准则，不产生偏见、有毒或不当内容。这通常涉及生成后应用内容过滤器或分类器。

评估生成器组件有助于找出RAG管道中的问题是源于LLM自身的合成过程，而不仅仅是检索步骤。生成质量差可能表明在提示工程 (prompt engineering)（如何指示LLM使用上下文 (context)）、所选生成器LLM的固有能力或局限性，或者管理和呈现上下文给模型的无效策略（例如，上下文填充或截断问题）方面存在问题。识别这些特定的生成失败可以实现有针对性的改进，例如改进系统提示，尝试不同的LLM或LLM参数 (parameter)（如温度），或调整检索到的上下文的格式以及如何将其插入提示。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

RAGAS: Automated Evaluation of Retrieval Augmented Generation Systems, Shahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert, 2023 arXiv preprint arXiv:2309.15217 (arXiv) DOI: 10.48550/arXiv.2309.15217 - 这篇论文介绍了RAGAS框架，该框架包含用于评估RAG系统的自动化指标，特别侧重于忠实性和答案相关性。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica, 2023 NeurIPS 2023 Datasets and Benchmarks Track DOI: 10.48550/arXiv.2306.05685 - 这项工作通过实证评估大型语言模型作为生成文本自动评估器的可靠性和局限性，这是本节中讨论的忠实性和相关性检查方法。