趋近智
确立了自注意力 (self-attention)机制 (attention mechanism)和位置编码 (positional encoding)的要点后,我们现在着重关注这些组成部分如何整合到完整的Transformer模型中。本章考察编码器和解码器堆栈的架构,它们是模型的基本组成部分。
您将学习如何:
5.1 Transformer 整体架构概览
5.2 编码器层结构
5.3 解码器层结构
5.4 解码器中的掩码自注意力
5.5 编码器-解码器交叉注意力
5.6 逐位置前馈网络 (FFN)
5.7 残差连接 (相加)
5.8 层归一化
5.9 多层堆叠
5.10 最终线性层和Softmax输出
5.11 动手实践:构建编码器块