所有课程

Transformer模型入门

章节 1: 序列建模与注意力机制基础

序列到序列任务的挑战

回顾：循环神经网络 (RNN)

传统循环神经网络方法的局限性

注意力机制原理介绍

注意力分数计算：一个宏观视角

来自注意力权重的上下文向量

第 1 章测验

章节 2: 自注意力与多头注意力

自注意力的原理

自注意力机制中的查询、键和值向量

缩放点积注意力机制

自注意力得分可视化

多头注意力简介

多头注意力机制如何运作

多头注意力机制的优势

动手实践：实现缩放点积注意力

第 2 章测验

章节 3: Transformer 编码器-解码器架构

整体架构概览

输入嵌入层

位置信息的必要性

位置编码说明

编码器层堆叠

加法与归一化层 (残差连接)

逐位置前馈网络

解码器堆栈

带掩码的多头自注意力

编码器-解码器注意力机制

最终线性层和Softmax

动手实践：构建编码器层

第 3 章测验

章节 4: Transformer模型的训练与实现

数据准备：分词

构建输入批次

序列任务的损失函数

正则化方法

基本实现概述

使用预训练模型库（简述）

实践：组装一个基本Transformer

第 4 章测验

加法与归一化层 (残差连接)

这部分内容有帮助吗？

参考文献

Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017 Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) DOI: 10.5555/3295222.3295349 - 这篇基础论文介绍了Transformer架构，详细阐述了残差连接和层归一化在其编码器-解码器模块中的集成。
Deep Residual Learning for Image Recognition, Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun, 2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (IEEE) DOI: 10.1109/CVPR.2016.90 - 这篇论文介绍了残差网络（ResNet），首次提出了残差连接的概念，通过缓解梯度消失问题，使得训练非常深的神经网络成为可能。
Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E. Hinton, 2016 arXiv preprint arXiv:1607.06450 DOI: 10.48550/arXiv.1607.06450 - 这篇论文提出了层归一化，一种在层内跨特征维度归一化激活值的技术，对于稳定训练循环模型和Transformer等序列模型至关重要。

© 2025 ApX Machine Learning用心打造