趋近智
缩放点积注意力公式用于计算注意力得分:注意力(Q,K,V)=softmax(dkQKT)V。观察这些得分在序列中的分布,有助于理解模型的内部运作方式。自注意力得分的可视化有助于阐明模型在处理某个词时,输入序列的哪些部分被认为信息量最丰富。
回顾一下,自注意力允许输入序列中的每个位置关注同一序列中的所有位置(包括自身)。由公式中的 softmax(dkQKT) 部分产生的计算出的注意力得分,反映了这些关联。词 i 和词 j 之间的得分越高,表明模型在计算词 i 的表示时,对词 j 给予了更高的关注。
可视化这些得分的常见方式是使用热图或注意力矩阵。在这种可视化中:
我们来看一个简单的示例序列:“The quick brown fox”。当模型计算词语“quick”的更新表示时,它计算注意力得分,表明它应该在多大程度上关注“The”、“quick”、“brown”和“fox”。同样地,在处理“fox”时,它会计算关注序列中其他每个词的得分。
想象一下,我们正在计算示例句子中词语“quick”的注意力得分。模型可能会生成这样的得分:
这表明在处理“quick”时,模型最关注“brown”和自身(“quick”),而对“The”和“fox”关注较少。
我们可以将整个序列“The quick brown fox”的注意力得分表示为一个矩阵。下面是序列中每个词关注所有其他词的注意力得分可视化。
序列“The quick brown fox”的自注意力得分。每行显示该词(查询)对序列中所有词(键)的注意力分布。颜色越深,表示注意力得分越高。
在此示例中:
通过查看这些可视化,我们通常可以识别出有趣的模式:
[CLS] 特殊词元)可能会广泛关注整个序列,充当信息聚合器。需要记住的是,这种可视化通常只展示一个注意力头。在多头注意力中,每个注意力头都会计算自己的一组注意力得分。可视化不同的注意力头常常会显示,每个注意力头会学习同时关注不同类型的关联或表示子空间。例如,一个注意力头可能关注局部句法,而另一个则捕捉更长距离的语义依赖关系。
可视化注意力得分不仅具有视觉吸引力;它还是一个有价值的诊断工具。它提供了一个窗口,使我们得以了解模型的推理过程,有助于我们理解模型如何关联输入的不同部分以形成有意义的表示,这项任务在早期的序列模型(如RNN)中解释起来要困难得多。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造