趋近智
评估一个RAG系统初看起来可能像是检查最终答案是否正确。然而,检索器和生成器组件相互关联的特性带来了特定的困难,使得评估比评估一个标准的大型语言模型或独立的(信息)检索系统更为复杂。评估过程中会出现一些常见的难题。
RAG系统并非一个单一的整体模型;它是一个流程,通常至少包含检索和生成两个主要阶段。不令人满意的输出可能源于任一阶段的问题,也可能源于它们之间糟糕的互动。
精确找出失败的根源需要评估每个组件,这带来了其自身的一系列挑战。
RAG系统的两个重要品质是检索到的上下文的相关性和生成的答案的忠实性。
对于许多查询,特别是开放式查询,没有一个单一的“正确”答案。不同的用户可能会觉得不同程度的细节或不同的观点更有帮助。这种主观性使得自动化评估变得困难。一个被某个指标或评估者认为是好的答案,可能会被另一个评估者认为不完整或措辞不佳。人工评估通常被认为是黄金标准,但它缓慢、昂贵,并且可能存在评估者之间不一致的问题。
RAG流程中的评估点。在评估上下文相关性(检索器输出)、答案忠实性和相关性(生成器输出)以及整体质量(涉及主观性及正确归因错误)方面存在挑战。
有效评估RAG系统通常需要包含查询、相应的理想检索片段以及基于这些片段的参考答案的数据集。创建此类全面的数据集是一项重要的任务:
对于专有或快速变化的数据集,生成这些真值信息通常不切实际,因此不得不依赖于较不直接的评估方法。
彻底的评估,特别是涉及人工判断的评估,昂贵且耗时。虽然自动化指标提供可扩展性,但它们通常提供不完整的视图,尤其是在忠实性和相关性方面。在RAG系统投入运行时,平衡人工评估的深度和自动化检查的广度是一个持续的挑战。
理解这些困难是迈向制定有效评估策略的第一步,我们接下来会审视这些策略。认识到评估并非完美,这促使我们进行迭代开发并使用多种方法来更全面地了解RAG系统的表现。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造