分析与降低RAG系统延迟

您的检索增强生成（RAG）系统的响应速度直接影响用户满意度。高延迟，即用户查询与系统响应之间的滞后，可能使原本准确的RAG系统变得不实用。虽然优化单个组件有助于提升性能，但理解并减少端到端延迟需要全面审视整个流程。分析RAG系统时间、准确定位延迟，并应用针对性策略，对于提供更快、更高效的用户体验至关重要。

理解RAG系统中的延迟

RAG系统中的端到端延迟包含每个步骤：从接收查询那一刻起，经过预处理、检索、文档处理、上下文 (context)组织、大型语言模型（LLM）生成，最终到交付响应。这些阶段中的每一个都增加了总耗时。一个典型的RAG流程可能如下所示：

查询预处理：清理、规范化，并可能进行查询扩展。
查询嵌入 (embedding)：将处理后的查询转换为向量 (vector)。
向量搜索：在向量数据库中搜索相关文档块。
文档获取：检索已识别文档块的内容。
重新排序（可选但常见）：应用更复杂的模型来重新排列获取的文档。
上下文组织：将检索到的信息编译成LLM的提示。
LLM生成：LLM处理提示并生成响应。
响应后处理：格式化或过滤LLM的输出。

多个阶段中微小的延迟也可能累积成明显的滞后。您的目标是在不过度牺牲结果质量的前提下，使整个流程尽可能迅速。

性能分析：加快RAG的第一步

在减少延迟之前，您必须准确测量时间花费在哪里。这就是性能分析的作用。性能分析涉及为RAG流程添加测量工具，以记录每个重要组件的执行时间。

性能分析方法

您可以采用几种性能分析方法：

手动工具化：在主要操作前后插入 time.time()（Python中）或类似的计时调用。这对于高层概览来说很简单，但对于细致的细节可能会变得繁琐。

import time

start_time = time.perf_counter()
# ... RAG操作 ...
end_time = time.perf_counter()
duration = (end_time - start_time) * 1000 # 毫秒
print(f"操作耗时 {duration:.2f} 毫秒")

内置性能分析器：大多数编程语言都提供内置的性能分析工具。对于Python，cProfile 和 profile 模块可以提供所有函数的详细调用图和执行时间。
```
python -m cProfile -o my_rag_profile.prof my_rag_script.py
# 然后使用snakeviz等工具可视化my_rag_profile.prof
```
应用性能监控（APM）工具：对于生产系统，APM工具（例如Datadog、New Relic、基于OpenTelemetry的解决方案如Jaeger或Zipkin）提供跟踪分布式服务请求的复杂方式，自动为代码添加测量工具并可视化延迟分解。如果RAG组件（向量 (vector)存储、LLM API、应用逻辑）是独立服务，这些工具特别有用。

找出常见瓶颈

通过性能分析，您通常会发现延迟并非均匀分布。RAG系统中常见的瓶颈包含：

LLM推理 (inference)：这通常是最耗时的部分，特别是对于较大的模型或较长的输出序列。
向量数据库搜索：特别是在索引非常大或查询复杂时。
重新排序：如果对许多候选对象使用了计算密集型的重排序模型。
数据传输：在组件之间移动大量数据，例如从存储中获取许多大型文档。
低效代码：自定义处理步骤中次优的算法或数据结构。

延迟可视化

时间花费的视觉呈现极具启发性。显示每个阶段对总延迟贡献的条形图很常见。

上图说明了RAG流程中的延迟分解情况，清楚地显示LLM生成和重新排序器是此示例中的主要贡献者。

降低延迟的策略

一旦您找出瓶颈，就可以应用针对性策略。

1. 优化检索

检索组件的速度直接影响您向LLM提供上下文 (context)的速度。

向量 (vector)数据库调优：确保您的向量数据库索引策略（例如，HNSW、IVF）针对您的数据集大小和查询模式进行了优化。尝试调整索引参数 (parameter)，例如 ef_construction、ef_search（对于HNSW）或 nprobe（对于IVF）。
嵌入 (embedding)模型选择：更小、更快的嵌入模型可以减少查询嵌入时间。评估其与检索质量之间的权衡。
选择性重新排序：对初始检索出的 top-k 文档中的较小子集应用计算开销大的重新排序器。
文档存储优化：如果获取完整文档内容很慢，请考虑优化文档存储（例如，数据库查询优化，缓存经常访问的文档）。

2. 优化生成

LLM生成步骤通常是主要的延迟因素。

模型选择：更小或经过蒸馏的LLM版本通常提供更快的推理 (inference)速度。量化 (quantization)（降低模型权重 (weight)的精度）也可以加速推理，有时对质量的影响可以接受。我们在第3章中讨论这些高效LLM。
提示工程 (prompt engineering)：简洁、结构良好的提示可以加快LLM的处理速度。避免在提供的上下文中使用不必要的冗余。
流式响应：对于用户在生成时阅读输出的应用程序（如聊天机器人），一旦LLM生成令牌就立即流式传输，可以显著改善感知延迟。总生成时间可能相同，但用户更快地看到结果。
最大令牌限制：明智地设置 max_new_tokens 或等效参数，以防止生成过长、过慢的响应，除非长输出是特定要求。
优化推理端点：如果您自托管LLM，请确保您的推理服务器（例如，Triton Inference Server、Text Generation Inference）配置为最佳性能，或许可以运用连续批处理等技术。

3. 系统层面与架构改进

更广泛的系统设计选择起到重要作用。

缓存：在多个层面实施缓存：
- 嵌入缓存：缓存常见查询或文档的嵌入。
- 检索缓存：缓存常见检索查询的结果。
- LLM响应缓存：对于相同的提示（或如果使用更高级的缓存，则为语义相似的提示），缓存LLM生成的响应。
- 缓存策略将在本章后面详细讨论。
异步操作与批处理：卸载非关键路径操作或将多个请求批量处理，以提高吞吐量 (throughput)和平均延迟。这些内容也将在后面的专门章节中介绍。
硬件加速：使用GPU或TPU进行嵌入和LLM推理。我们将在“RAG的硬件加速应用”中讨论这一点。
共同部署：通过将应用程序服务器、向量数据库和LLM推理服务（如果自托管）共同部署在同一数据中心或云区域/可用区，最大限度地减少网络延迟。
连接池：使用数据库和其他外部服务的连接池，以避免为每个请求建立新连接的开销。
推测执行（高级）：在某些情况下，您可能会推测性地执行部分流程。例如，在重新排序器处理文档的同时，使用初始检索器提供的 top-N 文档开始LLM生成。如果重新排序器显著改变了顶部文档，您可能需要重新开始或调整生成，但如果没有，则节省了时间。这增加了复杂性，需要仔细评估。

4. 迭代优化与监控

延迟优化不是一次性任务。

基准与测量：在进行更改之前，始终建立延迟基准。系统地测量每次优化的影响。
百分位追踪：不要只看平均延迟。追踪P50（中位数）、P90、P95和P99等百分位，以了解大多数用户的体验和最差情况。
A/B测试：对于重大更改，在生产或预发布环境中进行A/B测试，以比较不同方法的延迟和质量影响。

延迟与其他因素的平衡

记住，延迟是相互制约的几个考量因素之一，这点很重要。积极优化延迟可能导致：

降低准确性：使用更快、更小的模型（无论是用于嵌入 (embedding)还是生成）可能会影响结果的质量或相关性。
增加成本：更强大的硬件或更复杂的缓存基础设施会增加运营费用。
增加复杂度：复杂的优化会使系统更难构建、调试和维护。

The art of production RAG engineering lies in finding the right balance for your specific application's needs. 一个即时但提供不相关答案的系统，并不比一个提供完美答案但速度太慢的系统更有用。

通过系统性地对RAG流程进行性能分析并应用这些降低延迟的策略，您可以构建不仅智能而且响应迅速的系统，为用户带来更好的体验。本章后续部分将提供关于缓存、异步处理和运用硬件的更详细指导，这些对于管理和降低延迟都非常有益。

这部分内容有帮助吗？

参考文献

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, 2020 Advances in Neural Information Processing Systems (NeurIPS) 2020 DOI: 10.48550/arXiv.2005.11401 - 介绍了原始的RAG架构，对于理解系统组件及潜在延迟点至关重要。
Efficiently Serving LLMs with PagedAttention, Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, Ion Stoica, 2023 arXiv preprint arXiv:2309.06180 DOI: 10.48550/arXiv.2309.06180 - 提出PagedAttention技术，显著提高LLM服务吞吐量并减少延迟，适用于优化推理。
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale, Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer, 2022 NeurIPS 2022 DOI: 10.48550/arXiv.2208.07339 - 详细说明了LLM的8位量化，这是一种更快、更节省内存的推理方法，与LLM生成优化相关。
Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, Yu. A. Malkov, D. A. Yashunin, 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 40 (IEEE Computer Society) DOI: 10.1109/TPAMI.2017.2762124 - 介绍了HNSW算法，这是一种在向量数据库中广泛使用的快速近似最近邻搜索方法。