趋近智
正如本章引言中所述,大规模运行向量 (vector)搜索系统不仅仅需要高效的分片和数据复制。如果无法了解系统在负载下的表现,你将如同盲目飞行。性能下降、资源瓶颈和相关性问题可能在严重影响用户之前一直未被察觉。因此,建立全面的监控策略不是可选项;它是维护健康、高性能且经济高效的生产向量搜索服务的根本要求。
本节详细说明了分布式向量搜索系统需要关注的必要指标。监控这些指标有助于了解系统运行状况,辅助诊断问题,支持容量规划,并为调整工作提供参考。
这些指标直接反映了最终用户体验以及系统有效处理请求的能力。
延迟衡量的是处理搜索查询所需的时间,通常是从请求到达搜索服务到返回结果的那一刻。它可以说是最面向用户的性能指标。仅跟踪平均延迟可能具有误导性,因为少数非常慢的查询可能会被许多快速查询所掩盖。监控延迟百分位数会提供更多信息:
即使中位数良好,高 p99 延迟通常也表明具体问题,例如偶尔的垃圾回收暂停、网络抖动,或本身更为复杂的“长尾”查询(例如,需要大量过滤或命中索引中优化程度较低部分的查询)。目标延迟因应用而异;检索增强生成 (RAG) 通常比一般语义搜索应用需要更低的延迟(例如,p95 < 100 毫秒)。
每秒查询数 (QPS) 衡量系统在给定时间窗内成功处理的搜索请求数量。此指标反映了系统的容量。监控 QPS 对于了解当前负载、发现流量高峰时段以及计划未来容量需求非常有用。将 QPS 与延迟结合来看很重要。系统可能处理高 QPS,但如果在此负载下延迟急剧增加,用户体验就会受到影响。负载测试有助于确定延迟开始无法接受地下降的 QPS 水平。
召回率通过量化 (quantization)近似搜索算法返回的真实最近邻居的比例来衡量搜索结果的质量。对于查询 和所需邻居数 ,如果 是真实 个最近邻居的集合, 是 ANN 算法返回的 个邻居的集合,则召回率通常定义为:
尽管在离线评估和调优过程中非常重要(如第 5 章所述),但在实时生产系统中监控精确召回率通常不实际,因为确定真实最近邻居 () 需要进行详尽且计算成本高的搜索。然而,搜索质量的下降可能表明存在问题。在生产中近似或监控召回率趋势的策略包括:
跟踪召回率(或其代理指标)可确保为提高速度或降低成本所做的优化不会无意中牺牲向量 (vector)搜索系统旨在提供的相关性质量。
性能瓶颈通常表现为资源饱和。监控底层硬件的利用率对于诊断问题和确保高效运行必不可少。
向量 (vector)搜索,尤其是 HNSW 等算法中的距离计算和图遍历,可能对 CPU 占用较高。监控集群中所有节点的 CPU 负载。持续较高的 CPU 利用率(例如 >80-90%)通常与查询延迟增加或吞吐量 (throughput)降低相关。检查节点间是否存在不平衡,这可能表明查询分布不均或存在数据热点。请注意你的实现是否有效使用了 CPU SIMD 指令(AVX2, AVX512)等硬件加速,因为这会大幅影响 CPU 效率。
许多高性能 ANN 索引,特别是 HNSW 等基于图的索引,需要大量 RAM 来在内存中存储索引结构以实现快速访问。内存不足会导致数据交换到磁盘(如果已配置)或更常见的是内存不足 (OOM) 错误,从而导致服务中断。监控:
内存使用量的突然增加可能表明数据加载问题或内存泄漏。持续高内存压力需要扩展节点或优化索引参数 (parameter)(例如,使用量化 (quantization),如第 2 章所述)。
尽管许多向量搜索系统以内存受限为目标以提高速度,但磁盘 I/O 仍然可能是一个因素,尤其是在以下情况:
监控每秒磁盘读写操作 (IOPS) 和带宽使用量。高磁盘 I/O 活动,特别是高读取延迟,如果查询需要频繁访问磁盘,可能会成为瓶颈。
在分布式系统中,网络通信是持续不断的。查询会被分发到分片,中间结果可能会交换,最终结果会聚合并返回。监控集群内部节点之间以及集群与客户端之间的网络流量(每秒发送/接收的字节数)。网络饱和会造成明显的延迟,尤其是在结果聚合阶段。
除了核心性能和资源指标之外,还需要监控与索引本身和系统操作相关的方面。
原始指标很有用,但随着时间的可视化趋势和相关性会提供更深入的理解。使用仪表板工具(例如 Grafana、Kibana、Datadog 仪表板)绘制核心指标,如延迟百分位数、QPS、资源利用率和错误率。
延迟百分位数随时间的变化,突出显示了大约 10:10 时对 p95 和 p99 造成不成比例影响的峰值。
根据这些指标的阈值或异常情况设置自动化告警。例如,如果 p95 延迟超过预定义的服务水平目标 (SLO),如果 CPU 利用率长时间保持极高,如果内存使用接近容量,或者错误率突然激增,则发出告警。主动告警使运营团队能够在潜在问题明显影响用户之前予以解决。
通过认真监控这一套全面的性能、资源和操作指标,你可以获得必要的可见性,从而可靠、高效且经济高效地运行你的扩展向量 (vector)搜索系统,确保它持续满足你的 LLM 应用需求。
简洁的语法。内置调试功能。从第一天起就可投入生产。
为 ApX 背后的 AI 系统而构建
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•