趋近智
基于先前介绍的注意力机制,本章将着重介绍Transformer模型中使用的特定注意力机制。我们将研究自注意力,这是一种技术,允许模型在处理某个特定词语时,衡量同一输入序列内不同词语的重要性。
您将学习输入嵌入如何投影到查询(Q)、键(K)和值(V)向量,这些向量构成了计算注意力分数的依据。我们将详细说明缩放点积注意力公式:
Attention(Q,K,V)=softmax(dkQKT)V
这里 dk 是键向量的维度。
此外,我们将研究多头注意力。这种方法涉及并行运行缩放点积注意力机制多次,使用不同的、经过学习的Q、K和V线性投影。这使得模型能够共同关注来自不同表示子空间的信息,在不同的位置上。我们将介绍其工作原理以及其有效性背后的原理。最后,本章包含一个实践练习,您将使用深度学习库实现缩放点积注意力机制。
2.1 自注意力的原理
2.2 自注意力机制中的查询、键和值向量
2.3 缩放点积注意力机制
2.4 自注意力得分可视化
2.5 多头注意力简介
2.6 多头注意力机制如何运作
2.7 多头注意力机制的优势
2.8 动手实践:实现缩放点积注意力
© 2026 ApX Machine Learning用心打造