在MoE架构和分布式训练的基本原理已确立之后,现在我们将重点转向通过推理优化和部署,使这些模型为实际使用做好准备。虽然稀疏性在训练计算上带来优势,但它在高效推理方面引入了独特的考量,例如如何有效管理延迟和内存。本章将介绍解决这些问题的方法。我们将探讨的方法包括专门的批处理方法、针对MoE结构改进的模型压缩方法、借助硬件加速、优化推理时的路由器行为,以及适用于大型稀疏模型的部署模式。