所有课程

Transformer模型入门

章节 1: 序列建模与注意力机制基础

序列到序列任务的挑战

回顾：循环神经网络 (RNN)

传统循环神经网络方法的局限性

注意力机制原理介绍

注意力分数计算：一个宏观视角

来自注意力权重的上下文向量

第 1 章测验

章节 2: 自注意力与多头注意力

自注意力的原理

自注意力机制中的查询、键和值向量

缩放点积注意力机制

自注意力得分可视化

多头注意力简介

多头注意力机制如何运作

多头注意力机制的优势

动手实践：实现缩放点积注意力

第 2 章测验

章节 3: Transformer 编码器-解码器架构

整体架构概览

输入嵌入层

位置信息的必要性

位置编码说明

编码器层堆叠

加法与归一化层 (残差连接)

逐位置前馈网络

解码器堆栈

带掩码的多头自注意力

编码器-解码器注意力机制

最终线性层和Softmax

动手实践：构建编码器层

第 3 章测验

章节 4: Transformer模型的训练与实现

数据准备：分词

构建输入批次

序列任务的损失函数

正则化方法

基本实现概述

使用预训练模型库（简述）

实践：组装一个基本Transformer

第 4 章测验

编码器层堆叠

这部分内容有帮助吗？

参考文献

Deep Residual Learning for Image Recognition, Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 2016 Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) DOI: 10.1109/CVPR.2016.90 - 介绍了残差连接，这是Transformer模型中采用的一个关键架构组件，有助于训练深度神经网络。
Layer Normalization, Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton, 2016 arXiv preprint arXiv:1607.06450 DOI: 10.48550/arXiv.1607.06450 - 提出了层归一化方法，该方法在Transformer编码器中用于稳定激活并提高训练效率。
Speech and Language Processing (3rd ed. draft), Daniel Jurafsky and James H. Martin, 2023 (Pearson) - 一本广受认可的教材，全面解释了Transformer模型，包括对编码器内部机制的详细分析。

© 2025 ApX Machine Learning用心打造