趋近智
所有课程
3.1 整体架构概览
3.2 输入嵌入层
3.3 位置信息的必要性
3.4 位置编码说明
3.5 编码器层堆叠
3.6 加法与归一化层 (残差连接)
3.7 逐位置前馈网络
3.8 解码器堆栈
3.9 带掩码的多头自注意力
3.10 编码器-解码器注意力机制
3.11 最终线性层和Softmax
3.12 动手实践:构建编码器层
© 2025 ApX Machine Learning