趋近智
推理时模型权重的精度。较低的精度使用更少的显存但可能会影响质量。
KV缓存精度。较低的精度可减少显存, 尤其适用于长序列。
选择GPU或自定义显存
并行推理的GPU数量
批量大小:
1
每步同时处理的输入数 (影响吞吐量和延迟)
序列长度: 2,048
每个输入的最大token数; 影响KV缓存和激活 (也受注意力结构影响) 。
并发用户数:
同时进行推理的用户数 (影响内存和每用户性能)
0.0%
显存
0 GB
共 12 GB 显存
生成速度: ...
总吞吐量: ...
模式: 推理 | 批量: 1
(FP16 权重 / FP16 KV缓存) 于 16GB 自定义GPU
输入序列长度: 2,048 个token
配置模型和硬件以启用模拟
显存使用量是根据考虑架构 (参数、层、隐藏维度、活跃专家等) 、量化、序列长度和批次大小的模型进行估算的。性能估算考虑了模型/硬件分析和基准测试, 尽管基准测试的准确性有所不同。结果均为近似值。
了解更多关于显存需求如何计算的信息 →