章节 2: 向量搜索性能与效率的优化

基于前一章的近似最近邻算法，本章将集中讨论优化向量 (vector)搜索性能和资源使用的实际需求。低搜索延迟、高查询吞吐量 (throughput)和高效的内存管理，对于部署高效的LLM应用来说非常重要。

本章将介绍实现这些目标的方法。我们将讨论向量压缩技术，例如标量量化 (quantization)（ $SQ$ ）和乘积量化（ $PQ$ ），以及其优化型（ $OPQ$ ）变体。你将学习实现高效元数据过滤的策略，并比较前置过滤和后置过滤机制。此外，本章还将讨论硬件加速选项，如CPU SIMD指令和GPU，以及内存管理和缓存方法。完成本章学习将让你掌握实用技术，以调整向量搜索操作，提升速度和效率。

课程章节

2.1 量化技术：标量量化与乘积量化
2.2 实现优化乘积量化 (OPQ)
2.3 二进制哈希与局部敏感哈希 (LSH) 回顾
2.4 高级过滤策略：预过滤与后过滤
2.5 将元数据与向量一同高效索引
2.6 硬件加速考量 (CPU SIMD, GPU)
2.7 内存管理与缓存策略
2.8 实践：应用量化与过滤