基于先前介绍的稀疏专家混合模型的基础概念,本章会审视更精巧的架构变体。MoE 模型的效用往往取决于其组件的设计,尤其是负责将令牌路由到专家的门控网络。我们将分析设计有效门控网络的技术,包括 $top-k$ 路由以及在训练中引入噪声以增加路由选择的多样性。您会学习分层 MoE 结构,这种结构通过将专家排布在多层中,从而实现更细致的专业分工。我们将比较不同的路由架构,例如线性、非线性和基于注意力的机制,并评估它们的优缺点。进一步的讨论将涉及实际考量,例如确定适当的专家容量和规模,以及改善门控网络自身稳定性与学习动态的方法。本章最后会有一个实践练习,着重于在代码中实现定制门控机制。