MoE 训练中的难题：专家退化

专家混合模型提供了一种高效扩展参数 (parameter)数量的途径，但这种架构优势带来了一系列独特的训练动态，需要细致管理。为了促使路由均匀性，通常会采用负载均衡损失。然而，这种机制并非万能药。当优化任务表现与保持路由稳定性之间的平衡未能正确达成时，MoE 模型可能会出现一种被称为专家退化的严重失效模式。

专家退化现象

专家退化发生在门控网络学会将大多数 token 路由到少数受偏爱的专家子集时，而其余专家则很少或根本没有收到 token。这些未充分利用的专家未能学到有意义的专业能力，实际上变成了“死亡”参数 (parameter)。这种状态抵消了 MoE 架构的主要益处。模型不再是一个拥有许多专业子网络的大型模型，而是退化为一个较小的模型，其有效能力受限于少数活跃专家。

这种失效模式源于训练期间的一个自我强化反馈循环：

初始不平衡： 由于随机初始化或自然数据分布，一些专家可能在初始批次数据上偶然表现得稍好。
门控网络的强化作用： 门控网络的目标是将 token 路由到能够最小化整体任务损失的专家。它会迅速学会偏向那些已经表现更好的专家。
受偏爱专家的专业化： 受偏爱的专家获得更多训练信号和数据，使它们能够更快地专业化和提升。
其他专家的被忽视： 相反，未充分利用的专家收到稀疏的梯度和不足的数据，导致其学习停滞。它们相对于受偏爱的专家来说表现越来越差。
循环加剧： 门控网络对路由到少数“已验证”的专家变得更加确信，完全剥夺了其他专家的资源。辅助损失已不足以抵消这种强烈的偏好，导致永久性的退化。

下图说明了健康、均衡的路由系统与受专家退化影响的系统之间的差异。

在健康状态下，token 会均匀分布到所有专家。在退化期间，门控网络将几乎所有 token 路由到少数专家（专家 1 和 3），使得其他专家（专家 2 和 4）未受训练且不活跃。

诊断训练不稳定性

识别专家退化需要全程监控路由器的行为。仅仅观察总损失是不够的，因为它可能无法说明潜在的不平衡。以下指标对于诊断很重要：

专家利用率： 追踪在一定数量训练步长内分配给每个专家的 token 数量。在健康的模型中，所有专家处理的 token 数量应大致相同。专家 token 计数直方图出现高度偏斜是退化的一个明显指标。
负载均衡损失： 监控辅助损失项本身。持续高值表示路由器难以平衡负载。然而，低值并非总能保证健康，因为路由器可能通过丢弃 token 来获得低损失，这种行为受专家容量因子控制，我们将在第 3 章中分析。
变异系数 (CV)： 衡量路由器平衡情况的一种更正式的统计量是每个专家 token 分布的变异系数。它被定义为标准差除以均值。CV 接近零表示完美平衡，而高 CV 则表明严重不平衡。

令 $L_i$ 为专家 $i$ 在一个训练步长窗口内的负载（token 数量）。变异系数（CV）为：

\text{变异系数} = \frac{\sqrt{\frac{1}{N} \sum_{i=1}^{N} (L_i - \bar{L})^2}}{\bar{L}}

其中 $N$ 是专家数量， $\bar{L}$ 是平均负载。此指标提供一个单一、易于理解的数值来追踪路由器的健康状况。

训练期间专家利用率的图表。实线表示专家保持均衡负载的健康运行。虚线显示了退化情况：一个专家的负载呈指数增长，而另一个专家的负载减至零。

后果与应对措施概述

专家退化的直接后果是模型能力和性能的大幅下降。模型未能充分发挥其设计应有的参数 (parameter)数量。这使得训练效率低下，浪费了计算资源和内存，因为这些参数对最终结果毫无贡献。

尽管对缓解技术的完整分析将留到后续章节，但了解您可以操作的主要“杠杆”仍然有益：

辅助损失权重 (weight)： 乘以负载均衡损失的超参数 (hyperparameter)是最直接的工具之一。更高的权重会迫使路由器优先考虑平衡而非任务表现，但设置过高可能会损害收敛。
路由器噪声： 在选择 Top-K 专家之前，向门控网络的 logits 中引入少量随机噪声可以打破反馈循环。这会迫使路由器偶尔尝试那些它原本会忽略的专家。我们将在“高级路由机制”中实现这一点。
容量因子： 调整专家可以接受的 token 数量的缓冲区大小，会影响路由器的行为和丢弃 token 的数量，我们将在“大规模 MoE 的训练与优化”中讨论此问题。

了解并主动监控专家退化是成功训练 MoE 模型的一项基本技能。这代表了稀疏架构中的核心权衡：平衡分布式专业化的显著潜力与动态路由固有的不稳定性。

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 arXiv preprint arXiv:1701.06538 DOI: 10.48550/arXiv.1701.06538 - 介绍了现代稀疏门控MoE架构和辅助负载平衡损失，是理解MoE训练挑战的基本内容。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus, Barret Zoph, Noam Shazeer, 2021 arXiv, Vol. 23 DOI: 10.48550/arXiv.2101.03961 - 讨论了MoE模型扩展方法，解决了训练稳定性和效率问题，其中包括防止专家利用不足的方法。