ApX 标志ApX 标志

趋近智

LLM 推理: 显存与性能计算器

API 文档

推理时模型权重的精度。较低的精度使用更少的显存但可能会影响质量。

KV缓存精度。较低的精度可减少显存, 尤其适用于长序列。

硬件配置

选择GPU或自定义显存

并行推理的GPU数量

输入参数

批量大小:

1

每步同时处理的输入数 (影响吞吐量和延迟)

1
2
4
6
8

序列长度: 1,024

每个输入的最大token数; 影响KV缓存和激活 (也受注意力结构影响) 。

8K
16K
33K
66K
131K

并发用户数:

1

同时进行推理的用户数 (影响内存和每用户性能)

1
2
4
6
8

推理模拟

(FP16 权重 / FP16 KV缓存) 16GB 自定义GPU

输入序列长度: 1,024 个token

配置模型和硬件以启用模拟

性能与内存结果

0.0%

显存

就绪

0 GB

共 12 GB 显存

生成速度: ...

首个令牌时间: ~0ms

总吞吐量: ...

估算 GPU 租赁: 不适用

模式: 推理 | 批量: 1