趋近智
所有课程
5.1 Transformer 整体架构概览
5.2 编码器层结构
5.3 解码器层结构
5.4 解码器中的掩码自注意力
5.5 编码器-解码器交叉注意力
5.6 逐位置前馈网络 (FFN)
5.7 残差连接 (相加)
5.8 层归一化
5.9 多层堆叠
5.10 最终线性层和Softmax输出
5.11 动手实践:构建编码器块
© 2025 ApX Machine Learning