趋近智
稀疏专家混合模型(MoE)方法提供了一种有组织的条件计算实现方式,使神经网络能够大幅增加参数量,同时不按比例提高每个输入的计算成本。为达成这一目标,MoE架构提供了一种具体的机制,通过只激活网络相关部分来达成这种稀疏性,在大规模Transformer模型中表现尤其明显。
其根本上,MoE层取代了标准组件,例如Transformer中的前馈网络(FFN)模块,由两大部分构成:
稀疏性源于路由器的选择机制。路由器不是将每个令牌发送给所有专家(这会带来高昂的计算成本,类似于一个集成模型),而是通常采用一种稀疏选择策略。最常用的方式是top-k路由,对于每个输入令牌,路由器会计算出与N个专家中每个专家的亲和性分数。然后它只选择分数最高的k个专家来处理该令牌,k是一个小的整数,通常是1或2,并且远小于N(k≪N)。
稀疏MoE层的视图。输入令牌由门控网络处理,门控网络选择并加权少量专家子集(本例中为专家1和专家k,由实心绿线表示)。非活跃专家(虚线灰线)对此令牌未启用。活跃专家的输出组合起来生成最终输出。
对于特定的令牌x,只有选定的top-k专家执行计算(即所选集合中i的Ei(x))。其余的N−k个专家对此令牌不活跃,其处理不增加计算负载(FLOPs)。这使得模型的总参数量(路由器和所有N个专家的参数之和)可以非常大,同时每个令牌的计算成本得到控制,仅随k和单个专家的大小而变化,而不随专家总数N变化。
MoE层对令牌x的最终输出y通常是激活专家输出的加权组合。权重也由门控网络的分数决定。回顾一下一般公式:
y=∑i=1NG(x)iEi(x)
在稀疏top-k情境下,G(x)i仅对选定的k个专家非零,从而使总和变得稀疏:
y=∑i∈TopK(G(x))G(x)iEi(x)
此处,TopK(G(x))代表路由器G为输入x选择的k个专家的索引,而G(x)i是分配给专家i输出的学习权重。
这种稀疏MoE方式提供了一个强大的机制,将模型大小(参数量)与计算成本(每令牌FLOPs)解耦。它使得构建具有万亿参数的模型成为可能,同时在训练和推理期间保持可控的计算预算。然而,实现其潜在优势需要应对这种架构固有的特定难题,例如确保专家资源的平衡使用以及路由器训练的稳定动态,这些在后续章节中是核心议题。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造