实现混合专家(MoE)层只是问题的一部分。有效训练它,特别是在处理包含数百或数千个专家的模型时,会带来一系列独特的工程难题。标准训练过程对于这些稀疏架构通常不足够,它们需要专用技术来管理庞大的参数数量并保持稳定性。本章将从架构理论转向训练和优化的实际操作。您将学习从头开始成功训练大规模MoE模型以及微调现有模型所需的方法。分布式训练: 我们将介绍专家并行化,这是一种在多个设备上分配专家的技术。您将学习如何将其与数据并行化和模型并行化结合以实现最高效率。性能调优: 我们将分析容量因子,这是一个平衡计算负载与令牌损失的重要超参数,以及它对模型性能的直接影响。训练稳定性: 您将学习识别并缓解常见的训练不稳定问题,例如由路由器的$z$-损失引起的问题,这是辅助负载平衡损失函数的一个组成部分。精度与内存: 我们检查混合精度格式的使用,特别是BFloat16,以减少内存开销并加速计算,同时不牺牲模型质量。微调: 您将学习有效适应大型预训练MoE模型以用于下游任务的策略,这是一个常见且实用的应用场景。本章最后将有一个实践练习,您将配置一个分布式训练任务,将这些技术应用于一个大规模MoE模型。