ApX 标志ApX 标志

趋近智

向量嵌入计算器

规划 RAG 管道基础设施,估算嵌入模型和向量索引的内存、存储和吞吐量。

参数

快速启动场景

嵌入模型

精度

语料库 / 数据

索引 / 搜索

图连接数 (M)

每节点连接数

8
16
32
64

搜索质量 (ef_search)

直接影响查询延迟和 QPS

10
100
500
1k

基础设施

副本数

1
5
10
20

操作系统/缓冲区开销 (%)

0%
10%
20%
50%
100%

存储估算

总计(所有副本)

768.1 MB

768.1 MB x 1 个副本

float32 (4B)
HNSW (graph-based ANN)

100,000
个向量

原始向量

585.9 MB

100,000 x 1536d

索引开销

62.9 MB

HNSW (graph-based ANN)

元数据

19.1 MB

200B per doc

预估 QPS 范围

500-5K

约 15,000-150,000 活跃用户

服务层级

内存中

适合 16 GB 内存

每个副本

768.1 MB

含 15% 开销

内存使用情况

768.1 MB / 16 GB

占可用内存的 4.7%

适合内存:可实现最低延迟搜索

存储分解

原始向量
索引开销
缓冲区 (15%)

原始向量

585.9 MB

76.3%

索引开销

62.9 MB

8.2%

元数据

19.1 MB

2.5%

缓冲区 (15%)

100.2 MB

13.0%

精度 / 量化权衡

降低精度可大幅减少内存需求。现代向量数据库支持从二进制/int8 候选结果中对 float32 结果进行重新评分,从而恢复大部分召回率。

精度字节/维度与 float32 相比的内存与 float32 相比的召回率备注
float324B100%Baseline (100%)最高精度
float162B50%~99.9%损失可忽略,推荐默认值
int8 / scalar1B25%~99%适合大型语料库
binary0.125B3%70-90%极致压缩,配合重新排序使用

索引类型对比

常见问题

关于这些计算

估算遵循标准向量数据库公式:HNSW 链接开销、IVF 质心内存、PQ 码本大小和元数据预算。对操作系统和框架开销应用了可配置的缓冲区百分比(默认 15%)。QPS 范围仅供参考,高度依赖硬件。