趋近智
传统上,扩展深度学习模型需要让每个组成部分都变大,这会大大增加计算成本。专家混合 (MoE) 模型提出了一种不同的方法。它们通过引入一组被称为“专家”的专门化子网络来提升模型容量,并动态地将每个输入标记路由到这些专家中的一小部分。这使得参数数量可以大幅增加,同时单次前向传播所需的计算量不会按比例增加。
本章确立了这些稀疏架构的核心原理。我们将首先分析其主要组成部分:学习如何路由输入的门控网络,以及发展出专门功能的专家网络。然后,我们将分析MoE层的完整数学公式。对于输入 ,其输出 是专家输出的稀疏加权和:
在此公式中, 是专家 的门控值, 是该专家的输出。你将学会如何实现稀疏性,通常做法是确保对于任何给定输入,大多数 值都为零。
训练这些模型有一些独特的考量。我们将介绍用于负载均衡的辅助损失函数,这些函数促使标记在所有专家之间均匀分布。这是防止常见训练不稳定现象(如专家崩溃,即少数专家被过度使用而其他专家没有得到训练)的必要方法。最后,本章将通过从头构建一个基本的MoE层来运用这些思想。
1.1 稀疏门控专家混合架构概述
1.2 门控网络:公式与作用
1.3 专家网络:专精与容量
1.4 MoE层的数学表述
1.5 负载均衡和辅助损失
1.6 MoE 训练中的难题:专家退化
1.7 与密集模型扩展的比较
1.8 动手实践:实现一个基本 MoE 层
© 2026 ApX Machine Learning用心打造