改进的基本策略

在优化RAG系统性能时，常常需要识别并改进其不足之处。例如，检索器可能未能找到最相关的文本片段，或者生成器未能有效地整合所提供的上下文 (context)。有几种基本策略可供采用，以解决这些常见问题，并迭代地提高您的RAG管道的效能。请记住，改进RAG系统通常是一个评估、调整和再评估的循环过程。

优化检索部分

如果您的评估结果显示检索存在问题（例如，命中率低、检索到不相关文档），请考虑以下调整：

尝试分块策略： 您分割源文档的方式（如第3章所述）直接影响检索质量。
- 分块大小： 过大的分块可能包含过多不相关信息以及相关片段，这可能使生成器混淆或超出上下文 (context)限制。过小的分块可能缺乏足够的上下文，导致生成器无法给出好的答案。尝试使用不同的固定大小（例如，不同的字符或标记 (token)计数）。
- 重叠： 调整连续分块之间的重叠有助于确保相关信息不会在分块边界处被不恰当地分割。稍微增加重叠度可能会改善与分块边缘信息相关的查询的检索效果。
- 内容感知分块： 如果简单的固定大小分块不足，可以尝试尊重文档结构（段落、章节、特定标记）的方法。这通常会生成语义上更连贯的分块，从而提高检索上下文的相关性。
优化嵌入 (embedding)模型： 文本嵌入的质量决定了检索器理解语义相似性的能力。
- 尝试不同模型： 默认的嵌入模型可能不适合您的特定数据或任务。评估替代的预训练 (pre-training)模型（例如，Sentence-BERT的其他变体，或在金融或科学等特定方面微调 (fine-tuning)的模型）。性能可能因模型的训练数据和架构而有很大差异。
- 考虑微调（高级）： 对于更复杂的情况，在您自己的数据上微调嵌入模型可以带来显著改进，尽管这是一种更高级的技术。
调整检索参数 (parameter)：
- 检索块的数量 (k)： 相似性搜索中的参数 k 决定了检索多少个顶部块。检索太少块（k 较小）可能会遗漏重要上下文。检索太多（k 较大）可能会引入噪声、增加处理时间，并可能超出大型语言模型的上下文窗口。根据您的评估结果以及查询/文档的特性，尝试不同的 k 值。

增强生成部分

如果检索器似乎提供了相关上下文 (context)，但最终生成的答案不足（例如，忠实度低、相关性差、未使用上下文），请关注生成阶段：

优化提示工程 (prompt engineering)： 用于结合用户查询和检索上下文的提示模板极其重要。微小的改动就能显著改变大型语言模型的输出。
- 清晰指令： 确保您的提示明确告知大型语言模型如何使用所提供的上下文。例如，指示它仅根据给定文档回答，或整合来自多个检索段落的信息。
- 上下文分隔： 在提示中，将检索到的上下文与原始查询清晰地分开。使用 ### Context: 和 ### Question: 等标记 (token)可以帮助大型语言模型区分输入。
- 任务明确： 根据具体任务调整提示。您是要求总结、回答问题还是其他？明确目标。
- 来源标注指令： 如果需要，明确要求大型语言模型引用其响应中提供信息的来源（使用与分块关联的元数据）。
有效管理上下文：
- 处理长上下文： 如果检索到的相关上下文超出了大型语言模型的输入标记限制，您需要有策略来处理此问题。可以考虑的技术包括在将检索到的块提供给最终生成器之前对其进行总结，或者在可用时使用具有更大上下文窗口的大型语言模型。（更高级的方法包括根据与查询的相关性对检索到的块进行重新排序）。
- 大型语言模型参数 (parameter)调整： 尽管更改核心大型语言模型是一个更大的步骤，但调整其生成参数有时会有帮助。例如，降低 temperature 设置可能会使输出更具事实性且不那么有创造性，这在注重基于所提供上下文准确性的RAG系统中通常是期望的。

迭代改进方法

改进RAG系统很少是一蹴而就的。这是一个发现薄弱点并应用有针对性解决方案的迭代过程。

RAG改进循环包括评估系统，识别主要瓶颈（检索或生成），应用有针对性的策略，然后重新评估以衡量影响并确定后续步骤。

首先采用那些最有可能解决您在评估中观察到的特定失败模式的策略。例如，如果检索到的分块持续缺少相关信息，请首先关注分块和嵌入 (embedding)模型。如果上下文 (context)看起来相关但大型语言模型忽略它或产生幻觉 (hallucination)，请优先处理提示工程 (prompt engineering)。每次只应用一个更改并重新评估，以了解其影响，然后再引入进一步的修改。这种有条理的方法将帮助您系统地提升RAG系统的性能。

参考文献

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, 2020 Advances in Neural Information Processing Systems (NeurIPS) DOI: 10.48550/arXiv.2005.11401 - 介绍了检索增强生成（RAG）范式，确立了其核心架构和动机。
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Nils Reimers, Iryna Gurevych, 2019 Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) DOI: 10.48550/arXiv.1908.10084 - 提出了Sentence-BERT，这是一种广泛用于生成语义有意义的句子嵌入的方法，对检索质量有重要作用。
A Survey of Retrieval-Augmented Generation for Large Language Models, Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, 2023 arXiv preprint arXiv:2312.10997 DOI: 10.48550/arXiv.2312.10997 - 全面概述了RAG，包括对其组件和检索与生成改进技术的讨论。
Building a RAG system from scratch, Lewis Tunstall, Kashif Rasul, Alessandro Negri, Sourab Mangrulkar, Omar Espejel, Lysandre Debut, Patrick von Platen, 2023 (Hugging Face) - 一份构建RAG系统的实用指南，提供了数据准备、分块策略和组件选择的说明。