趋近智
规划 RAG 管道基础设施,估算嵌入模型和向量索引的内存、存储和吞吐量。
快速启动场景
嵌入模型
精度
语料库 / 数据
索引 / 搜索
图连接数 (M)
每节点连接数
搜索质量 (ef_search)
直接影响查询延迟和 QPS
基础设施
副本数
操作系统/缓冲区开销 (%)
内存使用情况
768.1 MB / 16 GB
占可用内存的 4.7%
适合内存:可实现最低延迟搜索
原始向量
585.9 MB
76.3%
索引开销
62.9 MB
8.2%
元数据
19.1 MB
2.5%
缓冲区 (15%)
100.2 MB
13.0%
降低精度可大幅减少内存需求。现代向量数据库支持从二进制/int8 候选结果中对 float32 结果进行重新评分,从而恢复大部分召回率。
| 精度 | 字节/维度 | 与 float32 相比的内存 | 与 float32 相比的召回率 | 备注 |
|---|---|---|---|---|
| float32 | 4B | 100% | Baseline (100%) | 最高精度 |
| float16 | 2B | 50% | ~99.9% | 损失可忽略,推荐默认值 |
| int8 / scalar | 1B | 25% | ~99% | 适合大型语料库 |
| binary | 0.125B | 3% | 70-90% | 极致压缩,配合重新排序使用 |
估算遵循标准向量数据库公式:HNSW 链接开销、IVF 质心内存、PQ 码本大小和元数据预算。对操作系统和框架开销应用了可配置的缓冲区百分比(默认 15%)。QPS 范围仅供参考,高度依赖硬件。
APX AI
在线