趋近智
基于前一章的近似最近邻算法,本章将集中讨论优化向量 (vector)搜索性能和资源使用的实际需求。低搜索延迟、高查询吞吐量 (throughput)和高效的内存管理,对于部署高效的LLM应用来说非常重要。
本章将介绍实现这些目标的方法。我们将讨论向量压缩技术,例如标量量化 (quantization)()和乘积量化(),以及其优化型()变体。你将学习实现高效元数据过滤的策略,并比较前置过滤和后置过滤机制。此外,本章还将讨论硬件加速选项,如CPU SIMD指令和GPU,以及内存管理和缓存方法。完成本章学习将让你掌握实用技术,以调整向量搜索操作,提升速度和效率。
2.1 量化技术:标量量化与乘积量化
2.2 实现优化乘积量化 (OPQ)
2.3 二进制哈希与局部敏感哈希 (LSH) 回顾
2.4 高级过滤策略:预过滤与后过滤
2.5 将元数据与向量一同高效索引
2.6 硬件加速考量 (CPU SIMD, GPU)
2.7 内存管理与缓存策略
2.8 实践:应用量化与过滤