章节 2: 进阶 MoE 架构

基于先前介绍的稀疏专家混合模型的基础概念，本章会审视更精巧的架构变体。MoE 模型的效用往往取决于其组件的设计，尤其是负责将令牌路由到专家的门控网络。

我们将分析设计有效门控网络的技术，包括 $top-k$ 路由以及在训练中引入噪声以增加路由选择的多样性。您会学习分层 MoE 结构，这种结构通过将专家排布在多层中，从而实现更细致的专业分工。我们将比较不同的路由架构，例如线性、非线性和基于注意力的机制，并评估它们的优缺点。

进一步的讨论将涉及实际考量，例如确定适当的专家容量和规模，以及改善门控网络自身稳定性与学习动态的方法。本章最后会有一个实践练习，着重于在代码中实现定制门控机制。

课程章节