ApX 标志

趋近智

LLM 推理: 显存与性能计算器

推理时模型权重的精度。较低的精度使用更少的显存但可能会影响质量。

KV缓存精度。较低的精度可减少显存, 尤其适用于长序列。

选择GPU或自定义显存

并行推理的GPU数量

批量大小:

1

每步同时处理的输入数 (影响吞吐量和延迟)

1
8
16
32

序列长度: 2,048

每个输入的最大token数; 影响KV缓存和激活 (也受注意力结构影响) 。

8K
16K
33K
66K
131K

并发用户数:

1

同时进行推理的用户数 (影响内存和每用户性能)

1
4
8
16
32
提交反馈 / 报告问题

性能与内存结果

0.0%

显存

就绪

0 GB

共 12 GB 显存

生成速度: ...

总吞吐量: ...

模式: 推理 | 批量: 1

推理模拟

(FP16 权重 / FP16 KV缓存) 16GB 自定义GPU

输入序列长度: 2,048 个token

配置模型和硬件以启用模拟

计算原理

显存使用量是根据考虑架构 (参数、层、隐藏维度、活跃专家等) 、量化、序列长度和批次大小的模型进行估算的。性能估算考虑了模型/硬件分析和基准测试, 尽管基准测试的准确性有所不同。结果均为近似值。

了解更多关于显存需求如何计算的信息 →

最近更新

  • 2025年6月24日 - 为批量大小和序列长度输入添加对数刻度。
  • 2025年6月7日 - 修复非 MHA 注意力结构的 KV 缓存计算问题。
  • 2025年6月4日 - 提高计算速度。
  • 2025年5月27日 - 添加了 CPU 内存和 NVMe 存储的内存卸载选项。
  • 2025年5月10日 - 修复 DeepSeek V3 MOE 计算错误。改进 MOE 计算并启用微调精度选择。