评估 ANN 性能

选择和调优近似最近邻（ANN）算法存在一系列复杂的权衡。ANN 方法牺牲精确度（找到绝对最近邻）来获得显著的速度和效率，与精确最近邻搜索相比，尤其是在高维数据中。如何量化 (quantization)这种固有的权衡？你如何知道所选算法及其参数 (parameter)是否适合你的特定应用？需要一种系统化的评估方法来回答这些问题。

评估 ANN 性能不仅仅是衡量速度；它是关于理解搜索质量、查询速度、资源占用和索引构建时间之间的平衡。让我们看看评估这些方面的标准衡量指标。

核心评估指标

评估 ANN 索引时，有几个定量指标可提供关于其表现的看法：

召回率（搜索准确度）： 这可能是评估近似算法“质量”最重要的指标。Recall@K 衡量通过 ANN 搜索返回的前 K 个结果中，包含实际 K 个最近邻（通过精确搜索确定）的比例。
$\text{召回率}@K = \frac{|\{\text{真实邻居}\} \cap \{\text{ANN 结果}\}|}{|\{\text{真实邻居}\}|}$
此处， $\{\text{真实邻居}\}$ 是通过详尽搜索找到的实际前 K 个邻居的集合，而 $\{\text{ANN 结果}\}$ 是 ANN 算法针对相同查询返回的前 K 个邻居的集合。召回率为 1.0 表示 ANN 搜索在前 K 个结果中找到了所有真实的最近邻。召回率为 0.8 表示它找到了 80%。较高的召回率表明搜索准确度更高，但这通常会以增加搜索时间为代价。
延迟（查询速度）： 这衡量执行单个搜索查询所需的时间。它通常以毫秒 (ms) 为单位衡量，对于用户期望快速响应的交互式应用来说，这是一个重要的衡量指标。较低的延迟通常更好。它受 ANN 算法、索引参数 (parameter)（例如 HNSW 中的 ef_search 或 IVF 中的 nprobe）、数据集大小、向量 (vector)维度以及所用硬件的影响。
吞吐量 (throughput)（每秒查询数 - QPS）： 这衡量系统在给定时间段内（通常是一秒）可以并发处理多少个查询。延迟衡量单个查询的速度，而吞吐量则衡量系统的整体处理能力。高吞吐量对于服务大量并发用户的应用来说非常重要。通常，优化单个查询的低延迟可能与负载下优化最大 QPS 略有不同。
索引构建时间： 这是从初始向量数据集构建 ANN 索引所需的时间。尽管搜索性能通常是主要关注点，但构建时间是一个重要的因素，尤其是在需要因数据更新而频繁重建索引的情况下。一些算法（如 HNSW）的构建时间可能比其他算法（如更简单的 IVF）相对较长。
内存占用： 这指的是存储 ANN 索引结构所需的 RAM 量。索引通常需要驻留在内存中以实现快速查询。内存占用很大程度上取决于算法、其参数（例如 HNSW 中的 M 会影响连接性以及因此的大小）以及被索引的向量数量。较低的内存占用意味着更低的硬件成本和潜在的更好可伸缩性。

理解召回率与性能的权衡

配置 ANN 索引的核心挑战在于平衡召回率与延迟或吞吐量 (throughput)等性能指标。你几乎总是面临权衡：提高召回率通常要求算法在搜索过程中检查更多潜在的候选项，这会增加延迟并降低吞吐量。反之，使搜索更快（更低延迟，更高 QPS）通常会检查更少的候选项，这可能会降低召回率。

索引参数 (parameter)直接控制这种平衡。例如：

在 HNSW 中，增加 ef_search（在搜索过程中检查的入口点动态列表的大小）通常会提高召回率但增加搜索时间。增加 M（在构建过程中每个节点连接的邻居数量）可以提高召回率潜力但增加索引大小和构建时间。
在 IVF 中，增加 nprobe（在搜索过程中需要访问的倒排列表单元格数量）通过检查更多潜在候选项来提高召回率，但直接增加延迟。

将这种权衡可视化很有帮助。你可以将 Recall@K 对平均查询延迟（或 QPS）进行绘图，以显示特定 ANN 算法在你的数据集上不同参数设置的效果。

此图展示了增加搜索工作量（沿着 x 轴向右移动，表示更高的延迟）通常会带来更好的召回率（沿着 y 轴向上移动）。不同的算法或参数系列可能会提供不同的权衡曲线。

建立真实参考

为了准确计算召回率，你需要一个“真实参考”——测试查询的真实最近邻集合。这通常通过执行精确的 k-最近邻（k-NN）搜索来获得，例如使用查询向量 (vector)与数据集中所有向量之间的暴力距离计算方法。

生成真实参考可能计算密集，对于大型数据集有时需要数小时甚至数天。因此，评估通常在数据的代表性子集和一小部分测试查询上进行。Faiss 等库为精确 k-NN（对在 GPU 上生成真实参考很有用）和各种 ANN 算法提供了高效的实现。

基准测试策略

一致且实际的基准测试对于有效比较不同 ANN 算法或参数 (parameter)设置非常重要。

标准数据集： 可以使用公开可用的基准数据集（如 SIFT1M、GIST1M、DEEP1B 或 ann-benchmarks.com 上整理的数据集）。这些数据集附带标准查询集的预计算真实参考，有助于与已发表结果直接比较。
自定义数据： 如果标准数据集不反映你的特定数据分布（例如，独特的文本嵌入 (embedding)，特定的图像特征），请创建自己的基准。选择数据的一个代表性子集用于索引，并选择一组独立的实际查询。针对索引子集计算这些查询的真实参考。
一致环境： 在相同的硬件和软件环境下运行所有基准测试，以确保公平比较。CPU 速度、RAM 可用性、库版本等因素都会影响结果。
多次运行： 多次执行查询性能测试并平均结果（延迟、QPS），以考虑系统变异性和潜在的缓存效应。必要时丢弃初始的“预热”查询。

为你的应用选择衡量指标

每个指标的相对重要性很大程度上取决于你的应用需求：

实时搜索（例如，语义搜索栏）： 低延迟通常非常重要，即使这意味着稍微牺牲召回率。如果预期有高用户并发，QPS 也同样重要。
推荐系统（批量生成）： 召回率可能比毫秒级的延迟更重要。即使延迟较高，如果能带来明显更好的推荐质量，也可能是可接受的。如果推荐频繁更新，索引构建时间也可能是一个考量因素。
数据分析/聚类： 高召回率通常是首要考虑，以确保分析的准确性。如果过程离线运行，延迟可能不那么重要。对于非常大的数据集，内存占用可能是一个限制。

通过理解这些评估指标及其固有的权衡，你可以系统地测试不同的 ANN 算法和参数 (parameter)。这使你能够选择最符合你的向量 (vector)搜索应用在准确性、速度和资源限制方面需求的配置。接下来实际操作部分将为你提供直接体验这些内容的练习机会。

参考文献

Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, Yu. A. Malkov, D. A. Yashunin, 2020 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42 (IEEE Computer Society) DOI: 10.1109/TPAMI.2018.2889473 - 介绍HNSW算法，详细说明其构建和搜索原理以及参数如何影响性能指标。