分布式RAG的基准测试：指标与工具

系统的基准测试对于了解并改进大规模分布式RAG系统的性能特点必不可少。有效的基准测试能详尽呈现系统在不同负载下的表现，从而协助识别瓶颈并确认优化措施的作用。这包括选择合适的指标、采用严谨的方法，以及使用恰当的工具集来收集和分析性能数据。

分布式RAG的核心性能指标

分布式RAG系统的全面基准测试策略，有赖于一组精心选择的指标。这些指标不仅应涵盖系统速度和容量，还应涵盖结果质量和资源效率。

延迟指标

延迟是面向用户的重要指标。在分布式RAG系统中，我们既关注端到端延迟，也关注各个组件的延迟。

端到端延迟 ( $L_{total}$ ): 这是从用户或客户端应用程序提交查询到收到最终RAG生成响应的总耗时。它代表了处理单个查询所涉及的所有组件和网络跳跃的延迟总和。
组件级延迟: 为了诊断性能问题， $L_{total}$ $L_{t o t a l}$ 必须进行分解。组件延迟包括：
- 检索延迟 ( $L_{retrieval}$ ): 检索阶段所需时间，包括查询向量 (vector)数据库、任何稀疏检索器和文档获取。
- 重排序延迟 ( $L_{rerank}$ ): 重排序模型对初始检索到的文档集进行评分和排序所需时间。
- LLM提示构建延迟: 从查询和检索到的上下文 (context)中组装LLM最终提示所需时间。
- LLM推理 (inference)延迟 ( $L_{inference}$ ): LLM生成响应所需时间。这通常占 $L_{total}$ 的很大一部分。
- 网络延迟: 分布式服务之间网络通信引入的延迟（例如，API网关到检索器，检索器到LLM服务）。
百分位延迟 (P50, P90, P95, P99): 平均延迟可能具有误导性。百分位更能呈现延迟分布情况。例如，P95延迟表示95%请求的延迟低于此值。高百分位（P99、P99.9）对于大规模系统尤为重要，因为它们反映了“最不幸运”用户的体验，并能显现诸如垃圾回收停顿或瞬时网络拥堵等间歇性问题。优化这些尾部延迟对于持续良好的用户体验非常重要。
冷启动与热启动延迟: 区分“冷”系统（例如，新部署或扩容后，缓存为空）和“热”系统（稳态运行）的性能。两者都很重要，但基准测试通常在初始预热期后关注“热”系统性能。

吞吐量 (throughput)指标

吞吐量衡量系统或其组件的容量。

每秒查询数 (QPS): 整个RAG系统的主要吞吐量指标，表示每秒能成功处理的用户查询数量。
每组件每秒请求数 (RPS): 各个服务的吞吐量（例如，向量搜索RPS，LLM推理RPS）。这有助于识别哪个组件是整体QPS的瓶颈。
数据摄取速率: 对于为RAG系统提供数据的管道，诸如单位时间处理的文档数或每秒生成的嵌入 (embedding)数等指标具有参考意义。

质量与正确性指标

速度固然重要，但RAG系统输出的准确性和相关性也同样重要。

错误率 ( $E$ ): 跟踪导致错误的请求百分比。这些可以是系统错误（例如，超时、HTTP 5xx）或应用程序特有错误（例如，“未找到相关文档”、“LLM生成失败”）。
检索质量:
- 召回率@K: 在前K个结果中检索到的相关文档的比例。
- 平均倒数排名 (MRR): 首次检索到相关文档的排名的倒数平均值。
- 归一化 (normalization)折损累计增益 (nDCG@K): 通过综合考虑检索文档的相关性和位置来衡量排名质量。
生成质量: 通常通过人工评估或更高级的自动化指标（例如，来自RAGAS等库）进行评估：
- 忠实性/有据性: LLM的回答是否准确反映了检索到的上下文中的信息？
- 答案相关性: LLM的回答是否与用户的查询相关？
- 连贯性、简洁性和实用性也是重要的定性方面。

资源利用指标

监控资源消耗有助于容量规划和成本优化。

CPU利用率: 各个组件使用的CPU时间百分比。
GPU利用率: 对于LLM推理和嵌入生成，GPU利用率、内存使用和GPU时钟频率都很重要。
内存使用: 各个服务消耗的RAM。
网络I/O: 服务间通信所使用的带宽。
磁盘I/O: 对于与向量数据库等持久存储交互的组件。
成本效率: 评估每次查询成本或每百万次查询成本，尤其在云环境中。这与资源利用率和吞吐量相关联，例如 $Cost/QPS$ 。

基准测试方法

完善的方法可确保您的基准测试结果可靠、可重复且具有参考意义。

定义真实工作负载: 用于基准测试的负载应尽可能模拟生产流量。这包括：
- 查询组合: 查询类型的代表性分布（例如，短查询对比长查询，简单查询对比复杂查询）。
- 数据特性: 使用反映生产数据规模、复杂度和业务场景的数据集。
- 负载剖面: 模拟预期的流量模式（例如，恒定负载用于基线测试，突发负载用于压力测试，逐渐增加的负载以查找饱和点）。
隔离测试环境: 基准测试应理想地在与生产流量和其他工作负载隔离的环境中进行，以防止干扰。该环境应在硬件规格、软件版本、网络配置和数据量方面尽可能与生产设置保持一致。
预热期: 在开始测量之前，务必包含一个预热期，以便缓存填充、JIT编译器优化代码，并使系统达到稳态。
测试时长和重复次数: 运行足够长时间的测试以捕获代表性行为，避免可能受瞬时启动效应影响的短测试。多次重复测试以确保结果一致性并计算统计显著性（例如，指标的均值、标准差）。
控制变量: 每次基准测试运行时只改变一个配置参数 (parameter)或系统组件，以准确归因性能变化。

分布式RAG系统基准测试工具

各种工具可以在分布式RAG系统的基准测试中提供帮助。

负载生成工具: 这些工具模拟对系统的并发用户或请求。
- k6 (Grafana k6): 适用于开发人员和测试人员的现代负载测试工具。使用JavaScript编写测试脚本。非常适合API负载测试。
- Apache JMeter: 基于Java、功能丰富的工具，适用于多种类型的负载测试。
- Locust: 允许您使用Python代码定义用户行为。适合测试复杂的用户流程。
- Hey / Vegeta: 更简单的HTTP负载生成工具，用于快速测试。
- 自定义脚本: 对于高度特定的场景，可以使用带有 httpx 或 aiohttp 等库的Python来构建自定义负载生成器。
应用性能监控 (APM) 和分析工具: 这些工具可全面了解应用程序组件中时间花费的分布。
- 分布式追踪系统: Jaeger、Zipkin，或 Datadog、Dynatrace、New Relic、Elastic APM 等APM解决方案。这些对于理解分布式RAG架构中微服务间的请求流和延迟分解必不可少。OpenTelemetry 是一个日益得到采纳的用于生成和收集遥测数据（追踪、指标、日志）的标准。
- 特定语言的分析器:
  - Python: cProfile, py-spy（采样分析器）。
  - Java: JProfiler, YourKit, async-profiler。
- GPU分析器: NVIDIA的 Nsight Systems (nsys) 用于系统级性能分析，Nsight Compute (ncu) 用于详细的CUDA内核分析，在优化LLM推理 (inference)或嵌入 (embedding)生成等GPU密集型任务时非常必要。
- 系统级工具: Linux上的 perf、vmstat、iostat、top/htop 用于CPU、内存和I/O监控。
向量 (vector)数据库基准测试:
- VectorDBBench (Zilliz出品): 一个专门用于向量数据库基准测试的工具。
- ann-benchmarks: 一个用于近似最近邻搜索库基准测试的常用工具集。可适配于特定的向量数据库产品。
LLM推理基准测试:
- 许多LLM服务框架（例如，vLLM、TensorRT-LLM、Hugging Face的Text Generation Inference）提供自己的基准测试脚本或实用工具。这些通常衡量不同批次大小和模型配置下的吞吐量 (throughput)（tokens/秒）与延迟。
数据管道基准测试:
- 特定于您数据处理框架的工具（例如，Spark UI、Flink Dashboard、用于消费者滞后和吞吐量的Kafka监控工具）。
可观测性平台:
- Prometheus: 一个带有时序数据库的开源监控系统。
- Grafana: 一个用于可视化和分析指标的开源平台，通常与Prometheus一起使用。这些平台使您能够从RAG系统的各个部分收集、存储和可视化前面讨论过的所有指标。

分析与解读基准测试结果

收集数据只是成功的一半；正确解读数据才是真正的价值所在。

关联性很重要: 寻找不同指标之间的关联。例如，随着QPS增加，P99延迟如何变化？特定组件的资源利用率（CPU、GPU）在哪个QPS水平达到上限？
瓶颈识别: 基准测试的主要目标通常是找出限制整体系统性能的组件或流程。如果LLM推理 (inference)服务在50 RPS时达到饱和，而其他组件可以处理100 RPS，那么LLM服务就是您当前的瓶颈。
可视化: 使用图表来了解性能趋势。
- 延迟与吞吐量 (throughput)曲线: 绘制P95/P99延迟与QPS的曲线，以了解延迟如何随负载增加而下降。
- 延迟直方图/分布图: 显示请求延迟的分布。
- 资源随时间利用率: 跟踪基准测试期间的CPU、内存和GPU使用情况。
绘制了基线RAG系统和优化版本（带中间缓存层）的P95端到端延迟与每秒查询数对比图，显示了优化系统延迟的改善和可持续吞吐量的提升。
比较分析 (A/B测试): 相互比较不同配置、算法或基础设施选择的基准测试（例如，比较两种不同的重排序模型，或如上图所示评估新缓存策略的作用）。确保测试在相同条件下运行以进行公平比较。
统计显著性: 比较结果时，确保观察到的差异具有统计学意义，而不仅仅是随机变动，尤其对于噪声较大的指标或微小改进。
可操作的洞察: 基准测试的结果应是对当前性能限制的清晰了解，以及一份优先考虑的优化领域列表。

通过系统地应用这些指标、方法和工具，您可以更好地了解分布式RAG系统的性能。这种数据驱动的方法对于初步调整以及随着系统的发展和扩展而进行的持续性能管理和容量规划都非常重要。本章后续部分将介绍解决基准测试可能显现的瓶颈和效率低下问题的具体技术。

使用 Kerb 更快构建 LLM 应用

简洁的语法。内置调试功能。从第一天起就可投入生产。

为 ApX 背后的 AI 系统而构建

这部分内容有帮助吗？

参考文献

Dapper, a Large-Scale Distributed Systems Tracing Infrastructure, Benjamin H. Sigelman, Luiz André Barroso, Mike Burrows, Pat Stephenson, Manoj Plakal, Donald Beaver, Saul Jaspan, Chandan Shanbhag, 2010 Google Technical Report dapper-2010-1 (Google Inc.) - 一篇描述谷歌分布式追踪系统的基础论文，对于理解分布式架构中组件级延迟和请求流很必要。
ann-benchmarks: a benchmarking tool for approximate nearest neighbor algorithms, Aumüller, M. and Bernhard, F. and Gionis, A., 2017 European Conference on Information Retrieval (ECIR), Vol. 10193 (Springer, Cham) DOI: 10.1007/978-3-319-76941-7_85 - 详细介绍了一个广泛使用的开源框架，用于评估近似最近邻搜索算法，这是向量数据库基准测试的基础。