趋近智
使用检索增强生成的一个重要优点是,相比单独使用标准大型语言模型,它能提升透明度和可信度。因为大型语言模型的回应是基于特定的检索文档,我们有机会引用这些来源,让用户(或开发者)能核实信息并了解其出处。这个过程通常被称为来源归属。
来源归属不仅仅是建立用户信任;它也是调试和了解RAG系统行为的一个有价值的工具。如果生成的输出不准确或异常,追溯到影响它的具体来源文档,可以帮助明确问题是出在检索阶段(找到了不相关的文档)还是生成阶段(误解了提供的背景信息)。
回想第三章(“准备用于检索的数据”),在准备您的知识库时,您最好为每个文档块关联元数据。这些元数据通常包含以下细节:
report_q3_2023.pdf)。这些元数据对归属来说非常重要。当检索器根据用户查询识别出相关块时,它不仅应返回块的文本,还应返回其关联的元数据。这包信息(块文本 + 元数据)随后会传递给生成阶段。
有几种方法可以将来源信息呈现给最终用户或开发者:
内联引用: 可以通过提示工程明确指示大型语言模型在其生成的回复中直接包含引用。增强后的提示将包含检索到的块及其元数据,指令可能如下所示:
“使用下方提供的背景信息回答问题。引用您使用的信息的来源文档和页码(在元数据中提供,例如
[source: 'doc_name', page: 5])。例如:‘系统需要X配置 [source: config_guide.pdf, page: 12]’。
大型语言模型随后会尝试将这些引用编织到文本中。这为特定信息段的来源提供了即时背景。然而,这依赖于大型语言模型准确遵循指令的能力,有时可能会使回复显得混乱。
附加来源列表: 一种更简洁的方法通常是生成不带内联引用的主要回复,然后附加一份提供给大型语言模型作为背景信息的所有来源文档列表。这种方法实现起来更简单,因为它不需要复杂的提示工程来进行内联放置。您可以从增强提示中使用的所有检索到的块中收集元数据,并将其格式化为一个列表(例如,“参考来源:”,后跟项目符号或编号引用)。缺点是它不能将回复中的特定语句直接链接到具体的来源。
用户界面集成: 许多应用程序在用户界面层面实现归属。RAG流程返回生成的答案以及来源块的元数据。用户界面随后显示答案,并可能提供可点击的链接、图标或可展开的区域,以显示来源文档乃至使用的特定文本段落。这使得大型语言模型的主要输出保持整洁,同时仍提供完全的透明度。
一个简化的流程,展示了与文本块一起检索到的来源元数据如何通过RAG流程传递,最终被用户界面用于独立于主要生成回应显示来源信息。
尽管功能强大,RAG系统中的归属也并非没有挑战:
尽管存在这些挑战,实现来源归属是构建更可靠、更透明的人工智能系统的重要一步。通过在数据准备和检索过程中仔细管理元数据,并选择合适的方法呈现这些信息,您可以为用户和开发者提供有价值的见解,了解RAG系统是如何得出其答案的。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造