趋近智
虽然专家混合(MoE)模型在训练时仅激活每输入参数的一小部分,从而带来可观的计算节省,但正是这种稀疏性在优化推理性能时带来了特有的难题。要实现低延迟、高吞吐量和高效内存利用,需要仔细考虑稀疏条件计算的特点。这些难题通常要求采用专门的技术来进行模型部署。
推理期间的一个主要目标是最小化延迟,即处理单个输入或小批次所需的时间。对于MoE模型,与具有相似计算预算(FLOPs)的稠密模型相比,有几个因素可能导致延迟增加:
因此,简单地比较MoE模型的活跃FLOPs与稠密模型,并不能完整展现推理延迟的情况。门控机制和潜在的通信开销必须纳入性能分析中。
吞吐量,通常以每秒处理的token数量衡量,是另一个重要的推理指标,特别是对于同时服务众多用户的应用。稀疏性在最大化吞吐量方面带来特定难题:
负载不均衡: 门控网络根据学习到的专业化来路由token。在推理期间,由于没有训练时使用的辅助负载均衡损失,token在专家间的分布可能变得非常不均衡。某些专家可能会收到过多数量的token,而其他专家则处于空闲或未充分利用状态。这种不均衡妨碍了所有可用专家间的有效并行处理,从而限制了整个系统的吞吐量。一个过载的专家会成为瓶颈,即使其他专家有可用容量,也会使流水线停滞。
推理负载不均衡的示意图,其中门控网络将大多数token路由到专家3,造成了瓶颈。
影响MoE部署的最显著特点可能是内存需求。
总参数量庞大: 尽管每个token只有少数专家活跃,但通常需要将所有专家参数加载到加速器的高带宽内存(HBM)中,才能使模型正常运行。MoE模型的总参数量可能是每前向传播计算成本相近的稠密模型的5-10倍(甚至更多)。这种庞大的参数占用通常会超过单个GPU或TPU的内存容量,即使在推理期间也需要进行模型分发(专家并行)。
稠密模型与一个设计为每token计算成本相近、但规模大得多的MoE模型在内存中存储的总参数量与每token活跃使用的参数量对比。MoE的总内存需求大得多。
内存带宽瓶颈: 即使总参数量能容纳在多个加速器的聚合内存中,性能仍可能受限于内存带宽。对于每个token(或微批次),选定专家的权重必须从HBM获取到计算单元。如果路由模式变化很大或专家权重很大,这些权重加载的速度可能成为推理速度的限制因素,甚至超过了计算成本本身。
与稠密模型相比,高效部署MoE模型通常需要更精密的架构。标准的推理服务器和库可能欠缺对以下方面的优化支持:
像DeepSpeed和Tutel这样的框架,在训练背景下已经讨论过,它们也提供用于优化MoE推理的功能,但它们的集成和调优使部署流程变得复杂。
解决这些延迟、吞吐量、内存和实现方面的难题,是高效部署MoE模型的必要前提。接下来的章节将阐述特定的优化方案,包括高级批处理、模型压缩、硬件适应性调整以及旨在减轻这些固有问题的部署模式。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造