趋近智
路由机制,例如top-k和Switch门控,执行“硬性”分配。一个令牌被路由到一个离散的、少数专家集合,而所有其他专家在该特定令牌的计算中被忽略。这种硬性选择是稀疏模型计算节省的原因,但也引入了不可微分性和需要辅助负载均衡损失等难题。
软MoE提供了一种不同方法,用所有专家的“软性”加权组合来替代这种离散选择。门控网络不再是选择使用哪些专家,而是确定每个专家的权重,最终输出是所有专家输出的加权和。这使整个MoE层完全可微分,并巧妙地避开了与硬性门控相关的训练不稳定性。
在软MoE层中,门控网络通过为每个专家生成对数来运作,方式与标准路由器相似。然而,我们不是用这些对数来选择top-k专家,而是对它们应用softmax函数。这会将对数转换为一组和为一的正权重,从而有效地形成专家上的概率分布。
输入令牌 的最终输出不是少数被选专家的输出,而是所有 个专家输出的线性组合。每个专家 的贡献由其对应的softmax权重 加权。
数学公式是直接的。给定输入 ,门控网络 计算一个对数向量 。然后权重 计算如下:
软MoE层的最终输出 是加权和:
这个公式可能看起来很熟悉。它与注意力机制非常相似,查询关注一组键以产生权重,然后这些权重用于计算值的加权和。在软MoE中,可以将令牌的表示视为查询,并将专家视为键和值。
下图说明了硬门控MoE和软MoE中数据流的区别。
在硬路由中,门控网络选择一个离散专家(专家1),所有计算都通过它进行。其他专家对该令牌保持不活跃。
在软MoE中,门控网络计算每个专家的权重。最终输出是所有专家输出的加权组合。
软MoE的主要优势在于它为稀疏模型的训练难题提供了一个精妙的解决方案。
然而,这种精妙性伴随着巨大的且通常令人望而却步的代价。
考虑到其计算需求,在将计算效率作为主要设计目标的大规模语言模型中,“纯”软MoE很少使用。它的公式更多地是作为理论基准和分析工具。
然而,软性、可微分分配的核心思想影响了更实用的混合系统的设计。例如,一些方法可能会使用top-k路由器选择一小部分专家,然后在该子集内计算软性加权组合。这可以提供软路由的一些训练稳定性,同时保留稀疏性的大部分计算优势。
理解软MoE很重要,因为它清楚地界定了训练中的数学简洁性与扩展所需的计算稀疏性之间的权衡。它代表了MoE设计谱系的一端,在此训练稳定性以牺牲推理效率为代价最大化。这与像Switch Transformers这样的机制形成有价值的对比,后者通过将计算效率置于首位而占据了谱系的另一端。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造