趋近智
在上一章了解了核心注意力机制后,我们将这些部件组合起来,以构建完整的 Transformer 架构。本章将详细介绍模型的结构,解释编码器和解码器堆栈如何在序列到序列任务中配合工作。
您将了解以下内容:
Add & Norm)在稳定网络和改善梯度流动中的作用。在本章结束时,您将理解这些不同部分如何组合形成完整的 Transformer 模型,以及每个组件设计背后的原理。
3.1 整体架构概览
3.2 输入嵌入层
3.3 位置信息的必要性
3.4 位置编码说明
3.5 编码器层堆叠
3.6 加法与归一化层 (残差连接)
3.7 逐位置前馈网络
3.8 解码器堆栈
3.9 带掩码的多头自注意力
3.10 编码器-解码器注意力机制
3.11 最终线性层和Softmax
3.12 动手实践:构建编码器层
© 2026 ApX Machine Learning用心打造