趋近智
推理时模型权重的精度。较低的精度使用更少的显存但可能会影响质量。
KV缓存精度。较低的精度可减少显存, 尤其适用于长序列。
硬件配置
选择GPU或自定义显存
并行推理的GPU数量
输入参数
批量大小:
1
每步同时处理的输入数 (影响吞吐量和延迟)
序列长度: 1,024
每个输入的最大token数; 影响KV缓存和激活 (也受注意力结构影响) 。
并发用户数:
同时进行推理的用户数 (影响内存和每用户性能)
(FP16 权重 / FP16 KV缓存) 于 16GB 自定义GPU
输入序列长度: 1,024 个token
配置模型和硬件以启用模拟0.0%
显存
0 GB
共 12 GB 显存
生成速度: ...
首个令牌时间: ~0ms
总吞吐量: ...
估算 GPU 租赁: 不适用
模式: 推理 | 批量: 1