趋近智
Transformer 模型,在开创性论文《Attention Is All You Need》中提出,具有编码器-解码器架构。这种结构是机器翻译或文本摘要等序列到序列任务的常见设计。值得注意的是,Transformer 实现这些任务不依赖于循环或卷积,主要利用注意力机制。
Transformer 不像循环神经网络那样逐一顺序处理输入标记,而是同时处理整个输入序列。这种并行处理能力是一项重要创新,且非常依赖于我们之前讨论的自注意力机制。
整体架构由两大部分组成:
让我们描绘出这种高层结构:
Transformer 架构的整体视图,呈现了输入处理、编码器堆栈、输出处理、解码器堆栈和最终输出层。请注意将编码器输出传输到解码器堆栈中每个层的连接。
输入(例如,源语言句子标记)首先通过嵌入层,然后添加位置编码。这种组合表示输入到编码器堆栈的底部。最终编码器层的输出作为每个解码器层内编码器-解码器注意力机制的 (K) 和值 (V) 输入。
同时,输出(例如,目标语言句子标记,在训练期间向右移位)也经过嵌入,与位置编码结合,并输入到解码器堆栈的底部。解码器使用其带掩码的自注意力来考量已生成的输出序列部分,并使用编码器-解码器注意力来参考编码后的输入表示。最后,来自顶部解码器层的输出通过线性变换和 softmax 函数,生成输出词汇表中所有可能下一个标记的概率分布。
本章的后续部分将逐一剖析这些组件,包括位置编码、编码器和解码器层的详细结构(包括相加与归一化步骤以及前馈网络),以及最终的输出生成过程。这种分层方法有助于我们理解 Transformer 如何有效地捕获序列内部和序列之间的复杂依赖关系。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造