自动化评估流程

随着您的RAG系统在生产环境中运行，仅依赖零星的人工检查或离线批处理评估将不再足够。数据、用户查询乃至底层模型的动态特性，要求对质量保障采取更系统、持续的方法。自动化评估流程提供这种系统且持续的方法，将评估从偶发任务变为一个不可或缺的持续过程。这些流程能够对变化提供快速反馈，针对基准进行一致监控，并提早发现性能下降，从而确保您的RAG系统长期保持其效用和可靠性。

设计流程架构

一个高效的自动化评估流程不仅仅是一个脚本。它是一个精心设计的系统，包含多个相互关联的组件，旨在实现可靠性和可扩展性。构建这样的流程需要仔细考虑数据来源、触发机制、执行环境、评估逻辑以及结果的存储和报告方式。

典型的自动化评估流程的主要组成部分包括：

评估数据来源： 自动化评估的质量很大程度上取决于所使用的数据集。
- 黄金数据集： 这些是经过整理的输入集合（例如问题、用户提示），与预期或高质量输出（例如理想答案、相关文档ID、已验证的事实）配对。这些数据集通常需要大量人工努力来创建和维护，但可作为稳定的基准。
- 生产样本： 匿名化的生产流量子集可用于评估，提供关于性能的参考。必须注意筛选高质量的样本，并避免延续现有偏见或问题。
- 合成数据： 大型语言模型本身可用于生成多样化的评估样本，可能涵盖现有数据中没有的边界情况或场景。这需要谨慎的提示和对生成数据的验证。
触发机制： 自动化意味着评估是响应特定事件或按计划运行的。
- 代码提交： 与您的版本控制系统（例如Git钩子）集成，当RAG系统的代码库（检索器、生成器或编排逻辑）发生更改时触发评估。这是CI/CD集成的一个基本部分。
- 数据更新： 当您的知识库更新（新文档被索引，嵌入 (embedding)重新计算）时，一次评估运行可以验证更改是否对检索或生成质量造成负面影响。
- 计划运行： 定期评估（例如每晚、每周）提供系统性能的一致状态，有助于发现逐渐发生的偏差或未立即与特定代码/数据更改相关的问题。
- 手动触发： 能够按需启动评估运行对于临时测试、调试或验证特定假设是很重要的。
执行环境： 评估运行的地点和方式会影响其速度、可扩展性和成本。
- 容器化（Docker, Kubernetes）： 将RAG系统和评估脚本打包到容器中，可确保跨不同环境的一致性，并简化评估过程本身的部署和扩展。
- CI/CD运行器： 使用您的CI/CD平台（例如GitHub Actions运行器、GitLab CI运行器、Jenkins代理）提供的专用运行器。
- 无服务器函数（例如AWS Lambda, Google Cloud Functions）： 适用于事件驱动的评估或较小的测试套件，提供按使用量付费的成本优势。
评估逻辑/运行器： 这是流程的核心，负责编排评估过程。
- 它使用选定评估数据集中的输入调用您的RAG系统（或其特定组件）。
- 它收集RAG系统的输出。
- 它应用一系列评估指标。这可以包括集成RAGAS（用于忠实度、答案相关性、上下文 (context)准确性/召回率）或ARES（用于细粒度分析）等框架，或用于特定领域指标的自定义脚本。常见指标包括检索的准确率、召回率、F1分数；生成质量的BLEU、ROUGE、METEOR或基于模型的评估（使用另一个LLM作为评判者）；以及端到端指标如忠实度、答案相关性和无害性。
结果存储和版本控制： 保存评估结果对于随时间跟踪性能和调试非常重要。
- 指标数据库： 时序数据库（例如Prometheus, InfluxDB）或关系型/NoSQL数据库适合存储定量指标。
- 工件存储库： 存储评估运行的详细输出、日志甚至中间数据（例如在S3, Google Cloud Storage中）有助于进行更细致的分析。
- 版本控制： 将评估结果与代码、模型和评估数据集的特定版本关联，可确保可重现性以及性能变化的明确归属。
报告和预警： 原始指标需要转换为可操作的参考信息。
- 仪表板： 随时间推移可视化重要性能指标（KPI）（如“构建RAG系统健康仪表板”中所述）。
- 自动化报告： 生成评估运行摘要，突出显示重大变化或故障。
- 预警系统： 当重要指标低于预设阈值或故障率超过可接受限度时，配置警报（例如通过PagerDuty、Slack、电子邮件）。

下图展示了一个自动化RAG评估流程的常见架构模式：

此图显示各种触发器通过CI/CD平台启动评估。评估编排器随后管理加载测试数据、调用RAG系统、计算指标和存储结果的过程，这些结果随后用于仪表板和警报。

与CI/CD工作流程集成

对于实践持续集成和持续部署（CI/CD）的开发团队而言，自动化评估流程不仅仅是有益的，它们是一个基本组成部分。将RAG评估直接集成到您的CI/CD工作流程中，可作为质量门，防止退步进入生产环境。

重要的集成点包括：

合并前检查： 当开发人员提出更改（例如通过拉取请求）时，CI流程可以自动触发对RAG系统预生产版本的集中评估运行。这能即时反馈更改的潜在影响。
合并后/部署前验证： 更改合并到主开发分支后，可以运行更全面的评估套件。此次评估的结果可以决定新版本是否可以部署到生产环境。
自动化回滚： 在复杂的设置中，如果部署到生产环境导致重要评估指标（通过在线评估或快速部署后检查监控）立即显著下降，可以触发自动化回滚程序，以恢复到以前的稳定版本。

这种紧密的集成确保每次更改，无论是对检索逻辑、生成模型还是底层数据，在影响用户之前都会对其质量影响进行审查。它将质量保障“左移”，使其成为开发生命周期中更早期和不可或缺的一部分。

自动化评估的类型及频率

并非所有评估都是相同的，它们也不应以相同的频率运行。分层式的自动化测试方法通常最有效：

组件级评估（高频率）：
- 侧重： 隔离并测试RAG系统的各个部分，例如检索器、重排序器或生成器的特定方面。
- 示例：
  - 检索器：在包含查询和已知相关文档块的数据集上测量recall@k、precision@k或MRR。
  - 嵌入 (embedding)模型：在与您的领域相关的句子相似度基准上评估性能。
  - 生成器：使用模板输入测试特定风格的一致性、响应长度限制或避免预定义的不良短语。
- 频率： 通常在每次代码提交到相关组件时运行。这些评估应快速完成，以便向开发人员提供及时反馈。
集成评估（中等频率）：
- 侧重： 在一个具有代表性但可管理的语料库上，测试组件间的互动以及RAG流程的端到端性能。
- 示例： 将100-500个问答对运行通过整个RAG流程，并计算忠实度、答案相关性和上下文 (context)实用性等指标。
- 频率： 在合并到主分支后、预生产或生产部署之前，或作为夜间构建的一部分运行。
全面回归评估（低频率）：
- 侧重： 对一个大型、多样化的数据集进行全面评估，涵盖广泛的场景，包括边界情况和先前发现的故障模式。目标是发现较小、较快测试可能遗漏的细微性能下降或回归。
- 示例： 评估数千或数万个样本，并随时间跟踪广泛的指标套件。
- 频率： 每晚、每周，或在主要版本发布前。这些运行可能计算密集。

这种分层策略平衡了对快速反馈的需求与生产系统所需的全面性。

进阶考虑和最佳实践

实施自动化评估流程伴随着自身的挑战，需要关注细节：

评估数据集管理：
- 版本控制： 就像代码和模型一样，评估数据集也必须进行版本控制。这确保了当您重新运行旧评估时，使用的是完全相同的数据。
- 扩充和更新： 数据集可能会过时。定期审查并使用新的挑战性案例、近期故障示例或反映新用户需求的数据来扩充它们。
- 多样性： 确保您的数据集涵盖RAG系统应处理的广泛主题、查询类型和文档特征。有偏或狭窄的数据集可能导致虚假的安全感。
管理计算成本：
- 完整评估，特别是使用大型LLM和庞大数据集时，可能既昂贵又耗时。
- 在更频繁、不那么重要的运行中，对非常大的数据集采用采样技术。
- 优化您的评估脚本和RAG系统调用以提高速度。
- 如果需要，考虑为更密集的评估运行配备专用、优化的硬件。
阈值定义和预警策略：
- 为指标设置合适的通过/失败阈值既是艺术也是科学。过于严格，您会因轻微、不重要的波动而遭受警报疲劳。过于宽松，您会错过真正的退步。
- 从保守的阈值开始，并根据历史性能和业务影响进行调整。
- 对于那些自然存在一定差异的指标，考虑动态阈值或异常检测。
- 根据指标下降的严重性及其潜在用户影响来确定警报的优先级。
人机协作（HITL）处理歧义：
- 自动化指标功能强大但并非万无一失。有些输出可能过于复杂或难以察觉，以至于现有指标无法准确判断。
- 设计您的流程以标记 (token)模糊的案例或自动化得分处于临界状态的案例。这些可以随后转交给人工审核员。
- 这些人工审核的反馈应应用于改进评估数据集，并可能提升自动化指标本身。
处理非确定性输出：
- 由于采样策略（例如温度 > 0），LLM生成的响应即使对于相同的输入和上下文 (context)也可能有所不同。
- 对于像精确匹配这样的指标，这构成了挑战。策略包括：
  - 为每个输入使用多个参考答案。
  - 采用语义相似度指标（例如BERTScore，或基于嵌入 (embedding)的相似度），它们可以评估意义而不仅仅是词汇重叠。
  - 如果目标是测试特定的生成路径，则将温度设置为0进行评估以获得确定性输出。
  - 评估对确切措辞不那么敏感的属性，例如引用的存在或对长度限制的遵守。

可视化指标趋势是此类流程的常见输出，有助于团队随时间了解性能。例如，跨不同评估运行跟踪“忠实度”之类的指标可能如下所示：

此图跟踪了RAG系统在多次评估运行中（对应不同系统版本）的“忠实度”得分。图中还显示了性能阈值，表示可接受的最低分数。

示例场景：重排序模型更改

设想您的团队中的一名开发人员为RAG流程的重排序组件实现了一个新算法。他们认为这将改善传递给生成器的文档相关性。

代码提交和PR： 开发人员提交代码并打开一个拉取请求。
CI触发： CI/CD系统检测到新的拉取请求并触发一个“集成评估”流程。
流程执行：
- 评估编排器检出建议的代码。
- 测试数据加载器加载一个预定义的“重排序基准数据集”，该数据集包含查询、初始检索到的文档（来自固定检索器）以及这些文档的真实相关性得分。它还加载一个较小的端到端问答数据集。
- RAG系统调用器运行两组测试：
  - 一组侧重于重排序器：它将初始检索到的文档输入到新的重排序器，并测量归一化 (normalization)折损累计增益（NDCG）和平均倒数排序（MRR）等指标。
  - 一组端到端：它在问答数据集上运行完整的RAG流程（使用新的重排序器）。
- 指标计算器计算重排序器的NDCG、MRR，以及端到端测试的忠实度、答案相关性。
结果与决策：
- 这些指标存储在结果数据库中。
- CI/CD平台在拉取请求上显示这些指标。
- 场景A（成功）： 重排序器的NDCG和MRR提高5%，端到端忠实度保持稳定或有所提升。评估流程报告成功。拉取请求可以被审核和合并。
- 场景B（退步）： 重排序器指标有所提升，但端到端忠实度显著下降（例如10%）。流程标记 (token)此退步。可能会向团队发送警报。拉取请求被标记为自动化检查失败，促使开发人员调查为何改进的重排序会负面影响生成器产生忠实答案的能力。

通过自动化此评估，团队能迅速确定更改的真实影响，并预防潜在的生产问题。这种持续的反馈循环使自动化评估流程成为在生产中维护高质量RAG系统不可或缺的一部分。

这部分内容有帮助吗？

参考文献

RAGAS: A Framework for Automated Evaluation of RAG Systems, Shahul Es, Jithin James, Luis Espinosa-Anke, Steven Schockaert, 2023 arXiv preprint arXiv:2309.15217 DOI: 10.48550/arXiv.2309.15217 - 介绍了一个流行的RAG系统评估框架，涵盖了忠实度和答案相关性等关键指标。
Designing Machine Learning Systems: An Iterative Process for Production-Ready ML Applications, Chip Huyen, 2022 (O'Reilly Media) - 为在生产环境中构建和部署机器学习系统提供实用指导，包括持续评估和监控。
Introduction to Information Retrieval, Christopher D. Manning, Prabhakar Raghavan, and Hinrich Schütze, 2008 (Cambridge University Press) - 一本标准教科书，涵盖信息检索的基本概念和指标，包括准确率、召回率和排名指标。
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica, 2023 NeurIPS 2023 Datasets and Benchmarks Track DOI: 10.48550/arXiv.2306.05685 - 研究使用大型语言模型作为评估其他大型语言模型裁判的有效性和可靠性，与基于模型的评估相关。