趋近智
本章侧重于理解 Transformer 架构所需的基本知识。我们首先考察涉及序列数据的常见任务,例如机器翻译或文本生成,以及在有效处理此类信息(尤其是在长序列情况下)时固有的难点。
为了建立一个基准,我们将简要回顾循环神经网络(RNNs),这是一种处理序列数据的标准方法。随后,我们将讨论 RNN 的实际局限性,包括捕捉长距离依赖和计算瓶颈等问题。
此次讨论为引入注意力机制的核心思想奠定基础。你将了解到注意力机制如何为模型提供一种方式,使其在生成输出时选择性地关注输入序列的相关部分。我们将介绍如何使用查询、键和值(Q、K、V)这些思想来计算注意力分数的高层工作原理,以及这些分数如何用于创建加权上下文向量,这些是本课程后续章节中讨论的更高级机制的构成要素。
在本章结束时,你将理解:
1.1 序列到序列任务的挑战
1.2 回顾:循环神经网络 (RNN)
1.3 传统循环神经网络方法的局限性
1.4 注意力机制原理介绍
1.5 注意力分数计算:一个宏观视角
1.6 来自注意力权重的上下文向量
© 2026 ApX Machine Learning用心打造