VRAM 计算器: NVIDIA GPU 与 Apple Silicon)

LLM 推理: 显存与性能计算器

推理

微调

选择模型

推理量化

推理时模型权重的精度。较低的精度使用更少的显存但可能会影响质量。

KV缓存量化

KV缓存精度。较低的精度可减少显存, 尤其适用于长序列。

硬件配置

选择GPU或自定义显存

GPU数量

并行推理的GPU数量

输入参数

滑块

批量大小:

对数刻度

每步同时处理的输入数 (影响吞吐量和延迟)

序列长度: 1,024

每个输入的最大token数; 影响KV缓存和激活 (也受注意力结构影响) 。

16K

33K

66K

131K

并发用户数:

对数刻度

同时进行推理的用户数 (影响内存和每用户性能)

启用卸载到CPU/RAM或NVMe

开源

Kerb: LLM开发工具包

用于构建生产级LLM应用的Python工具包。提供RAG、智能体和结构化输出等模块化工具。

提交反馈 / 报告问题

性能与内存结果

0.0%

显存

就绪

0 GB

共 12 GB 显存

生成速度: ...

首个令牌时间: ~0ms

总吞吐量: ...

模式: 推理 | 批量: 1

推理模拟

(FP16 权重 / FP16 KV缓存) 于 16GB 自定义GPU

输入序列长度: 1,024 个token

配置模型和硬件以启用模拟

计算原理

显存使用量是根据考虑架构 (参数、层、隐藏维度、活跃专家等) 、量化、序列长度和批次大小的模型进行估算的。性能估算考虑了模型/硬件分析和基准测试, 尽管基准测试的准确性有所不同。结果均为近似值。

了解更多关于显存需求如何计算的信息 →

在领英上关注我们获取更新

捐赠 (支持我们)

常见问题

这个计算器有多准确？

TPS（每秒令牌数）是如何计算的？

为什么MoE模型会使用这么多显存？