趋近智
检索器的任务是找到正确的拼图块(相关上下文),而生成器的任务是将其正确组装成一幅连贯准确的图像,以回答用户的原始问题。即使检索器获取了完全相关的信息,作为生成器的大语言模型(LLM)仍可能出现问题。它可能错误理解上下文,忽略其中大部分,引入检索文档中不存在的信息(尽管有依据仍产生幻觉),或者未能直接回应用户的查询。因此,评估生成组件是理解RAG系统表现的一个独特而主要的步骤。
在RAG背景下评估生成器,需要衡量LLM综合所提供信息以生成最终答案的程度。我们主要关注两个方面:
忠实度,在RAG背景下有时被称为事实性或有依据性,衡量生成的答案是否与检索到的上下文片段中的信息保持一致。忠实的答案不与提供的上下文相矛盾,并避免引入外部知识或虚构细节。
设想您的RAG系统根据检索到的新闻稿回答一个关于公司最新产品发布的问题。
评估忠实度很重要,因为RAG的一个主要目标是减少幻觉并将回答建立在可验证的数据上。方法包括:
答案相关性评估生成的回答回应原始用户查询的程度。即使答案完全忠实于所提供的上下文,如果它没有实际回答用户所问的问题,也可能没有帮助。
设想用户询问:“X项目期间面临的主要挑战是什么?”检索器找到详细说明项目时间表和团队成员的文档。
相关性确保RAG系统不仅仅是总结检索到的文本,而是有效地使用该文本来满足用户的特定信息需求。评估方法与忠实度评估方法有重叠,但关注点不同:
此图说明了生成组件的两个主要评估点:检查生成的答案是否忠实于检索到的上下文(有依据性),以及它是否与原始用户查询相关(实用性)。
除了忠实度和相关性(它们与RAG特别相关)之外,您还应考虑文本生成质量的标准方面:
评估生成器组件有助于找出RAG管道中的问题是源于LLM自身的合成过程,而不仅仅是检索步骤。生成质量差可能表明在提示工程(如何指示LLM使用上下文)、所选生成器LLM的固有能力或局限性,或者管理和呈现上下文给模型的无效策略(例如,上下文填充或截断问题)方面存在问题。识别这些特定的生成失败可以实现有针对性的改进,例如改进系统提示,尝试不同的LLM或LLM参数(如温度),或调整检索到的上下文的格式以及如何将其插入提示。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造