趋近智
Transformer 模型,在开创性论文《Attention Is All You Need》中提出,具有编码器-解码器架构。这种结构是机器翻译或文本摘要等序列到序列任务的常见设计。值得注意的是,Transformer 实现这些任务不依赖于循环或卷积,主要利用注意力机制 (attention mechanism)。
Transformer 不像循环神经网络 (neural network) (RNN)那样逐一顺序处理输入标记 (token),而是同时处理整个输入序列。这种并行处理能力是一项重要创新,且非常依赖于我们之前讨论的自注意力 (self-attention)机制。
整体架构由两大部分组成:
让我们描绘出这种高层结构:
Transformer 架构的整体视图,呈现了输入处理、编码器堆栈、输出处理、解码器堆栈和最终输出层。请注意将编码器输出传输到解码器堆栈中每个层的连接。
输入(例如,源语言句子标记)首先通过嵌入 (embedding)层,然后添加位置编码 (positional encoding)。这种组合表示输入到编码器堆栈的底部。最终编码器层的输出作为每个解码器层内编码器-解码器注意力机制的 () 和值 () 输入。
同时,输出(例如,目标语言句子标记,在训练期间向右移位)也经过嵌入,与位置编码结合,并输入到解码器堆栈的底部。解码器使用其带掩码的自注意力来考量已生成的输出序列部分,并使用编码器-解码器注意力来参考编码后的输入表示。最后,来自顶部解码器层的输出通过线性变换和 softmax 函数,生成输出词汇表 (vocabulary)中所有可能下一个标记的概率分布。
本章的后续部分将逐一剖析这些组件,包括位置编码、编码器和解码器层的详细结构(包括相加与归一化 (normalization)步骤以及前馈网络),以及最终的输出生成过程。这种分层方法有助于我们理解 Transformer 如何有效地捕获序列内部和序列之间的复杂依赖关系。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•