评估指标再审视：召回率、准确率、延迟

评估向量 (vector)搜索系统的有效性是构建高性能应用的基础。虽然召回率、准确率和延迟等基础观念在一般机器学习 (machine learning)中可能已熟悉，但它们在近似最近邻 (ANN) 搜索背景下的应用和理解需要更具体的审查。正确运用这些指标可帮助您系统地调整参数 (parameter)，并对算法的权衡做出明智的决定。

召回率@k

在向量 (vector)搜索中，特别是在 ANN 算法中，我们很少旨在检索所有可能的邻居。相反，我们更关注从可能庞大的集合中找到一小部分高度相关项。这便是召回率@k成为核心指标的原因所在。

召回率@k 衡量给定查询下，在搜索系统返回的前 $k$ 个结果中，找到真实最近邻居（根据真值集）的比例。

形式上，对于单个查询 $q$ ：

\text{召回率@k}(q) = \frac{|\text{真实邻居}(q) \cap \text{检索@k}(q)|}{|\text{真实邻居}(q)|}

在此：

$\text{真实邻居}(q)$ 是数据集中查询 $q$ 的实际最近邻居集合（为实际评估，通常限制为前 $N$ 个实际邻居）。
$\text{检索@k}(q)$ 是您的 ANN 搜索系统为查询 $q$ 返回的前 $k$ 个项的集合。
$|\cdot|$ 表示集合中的元素数量。

总体召回率@k 通常是针对一组有代表性的测试查询进行平均计算的。

为何 @k 很重要： 对于检索增强生成 (RAG) 等应用，检索单个最相关文档块 (k=1) 或少量几个 (k=3 或 k=5) 可能足以向 LLM 提供上下文 (context)。显示数百万个结果是不切实际且不必要的。因此，评估召回率@1、召回率@10 或召回率@100 为特定任务的性能提供了比通用召回率衡量更具意义的评价。

权衡： 召回率@k 直接受 ANN 索引参数 (parameter)影响。例如，在 HNSW 中，增加搜索时间参数 efSearch 让算法能更多查看图，通常会提高召回率@k，但也会增加查询延迟。类似地，对于 IVF 索引，增加 nprobe（要探查的倒排列表或桶的数量）通常会提高召回率，但会牺牲速度。理解这种关系对于调优非常重要。

一个重大难题是建立真值，即 $\text{真实邻居}(q)$ 。对于大型数据集，通过暴力搜索找到精确最近邻居在计算上成本过高。通常，真值通过高召回率的 ANN 设置建立，可能结合来自多个参数设置的结果，或者在较小、有代表性的数据子集上运行精确 k-NN 来获得。

准确率@k

召回率@k 告诉您真实邻居是否存在于前 $k$ 个结果中，而准确率@k 告诉您实际检索到的结果中有多少是相关的。

准确率@k 衡量检索到的前 $k$ 个项中，实际是真实最近邻居的比例。

形式上，对于单个查询 $q$ ：

\text{准确率@k}(q) = \frac{|\text{真实邻居}(q) \cap \text{检索@k}(q)|}{k}

同样，这通常是针对一组测试查询进行平均计算的。

相关性与用户体验： 高准确率@k，特别是对于较小的 $k$ 值（例如 $k=1, 5, 10$ ），通常与语义搜索应用中更好的用户满意度相关。用户期望最开始的结果具有高度相关性。在 RAG 中，高准确率@k 确保传递给 LLM 的上下文 (context)是准确的，并且未被不相关信息稀释。

与召回率@k 的关系： 准确率@k 和召回率@k 通常呈反向关系，特别是在调整控制搜索彻底性的参数 (parameter)时。更广泛地搜索（增加 efSearch 或 nprobe）可能会通过找到更多真实邻居来提高召回率@k，但如果额外检索到的项在前 $k$ 个结果中包含更多不相关的项，则可能会降低准确率@k。反之，一个非常快速、受限的搜索可能会产生高准确率@1（如果最靠前的结果是正确的），但整体召回率@k 较低。这种具体关系在很大程度上取决于数据集分布和查询负载。

延迟

延迟指执行搜索查询所需的时间。在向量 (vector)搜索系统中，这通常以毫秒 (ms) 为单位衡量。它是面向用户的应用和需要实时响应的系统的重要指标。

延迟的组成部分： 总查询延迟可分解为：

网络延迟： 查询到达搜索服务并返回结果所需的时间。
预处理/过滤： 在向量搜索之前或期间应用任何元数据过滤器所花费的时间。
核心 ANN 搜索： ANN 算法（例如 HNSW 图遍历、IVF 桶探测）用于识别候选邻居所花费的时间。
距离计算： 计算精确距离以重新排序候选（如适用）所花费的时间。
后处理/过滤： 在检索向量候选或获取相关数据后应用过滤器所花费的时间。

在评估时，请明确您正在测量延迟的哪一部分。通常，重点在于核心 ANN 搜索时间和相关的过滤，因为这些最直接地受到索引参数 (parameter)和设计选择的影响。

影响延迟的因素：

算法选择： 不同的 ANN 算法固有的速度特性不同。
索引参数： 如前所述，efSearch (HNSW) 或 nprobe (IVF) 等参数直接影响搜索范围，从而影响延迟。
数据大小与维度： 更大的数据集和更高的向量维度通常会导致更长的搜索时间。
量化 (quantization)： 乘积量化 (PQ) 等技术可以减小数据大小并加快距离计算，但可能影响准确性。
过滤： 预过滤（仅在元数据定义的子集中搜索）实现高效可能很复杂。后过滤（检索比所需更多的向量然后过滤）会增加开销。
硬件： CPU 能力（SIMD 指令）、GPU 加速和内存速度显著影响性能。
系统负载： 并发查询和资源争用会增加观测到的延迟。

吞吐量 (throughput) (QPS)： 与延迟相关的是吞吐量，通常以每秒查询数 (QPS) 衡量。这表示系统在可接受的延迟限制内能同时处理多少查询。优化单个查询的低延迟可能不同于在负载下优化高 QPS。

互相作用：召回率、准确率和延迟

优化向量 (vector)搜索系统必然涉及平衡这三个核心指标。您无法同时最大化所有三个；一个指标的改进通常以牺牲另一个为代价。

增加搜索投入（例如，更高的 efSearch）通常会提高召回率@k，但会增加延迟。它对准确率@k 的影响可能不同。
使用激进的量化 (quantization)可能会降低延迟和内存使用，但可能同时降低召回率@k 和准确率@k。
选择较小的 k 使实现高准确率@k 更容易，但减少了实现高召回率@k 的机会。

在参数 (parameter)调优期间，可视化这些权衡非常重要。

示例权衡曲线，显示 HNSW efSearch 参数增加时，召回率@10、准确率@10 和延迟可能如何变化。更高的 efSearch 通常会提高召回率并增加延迟，而准确率可能趋于平稳或略有下降。

最佳平衡完全取决于您的应用需求。一个用于交互式语义搜索的系统可能优先考虑低延迟（<50ms）和高准确率@1，接受整体召回率略低。一个 RAG 系统如果能保证高召回率@5，确保几乎总是能检索到所需的上下文 (context)，则可能容忍更高的延迟（例如 200ms）。

理解这些指标，它们在 ANN 背景下如何计算，以及它们如何互相作用，是本章其余部分讨论的系统调优和评估技术的基础。通过适当的衡量，您可以自信地优化您的向量搜索实现以达到其预期目的。

参考文献

Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, Yu. A. Malkov and D. A. Yashunin, 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42 (IEEE Computer Society) DOI: 10.1109/TPAMI.2018.2889473 - 描述了HNSW算法，一种重要的近似最近邻方法，并讨论了其效率和准确性，这直接与延迟和召回率的权衡相关。
Introduction to Information Retrieval, Christopher D. Manning and Prabhakar Raghavan and Hinrich Schütze, 2008 (Cambridge University Press) - 一本经典教材，提供了信息检索度量的基本定义和背景，例如Recall@k和Precision@k。