趋近智
通过矩阵运算实现的高效性赋予了注意力机制 (attention mechanism)实际效果,尽管其定义利用查询、键和值来进行概念理解。这种方法使模型能够同时计算序列中所有位置的注意力分数和上下文 (context)向量 (vector),使其非常契合现代并行硬件如GPU和TPU。
我们来回顾一下缩放点积注意力公式:
与一次只计算一个查询的注意力不同,我们同时处理整个序列。假设我们有一个长度为 的输入序列。每个位置的查询、键和值向量堆叠起来形成矩阵:
现在,我们使用这些矩阵逐步分析计算过程:
注意力计算的主要部分是确定每个查询应关注每个元素的程度。这通过计算每个查询 与每个元素 之间的点积来完成。矩阵乘法 并行执行所有这些点积:
结果得到的 分数 矩阵的维度为 。此矩阵中的每个元素 代表位置 的查询与位置 的键之间的原始对齐 (alignment)分数。值越高意味着相关性越强。
如前所述,缩放可以避免点积变得过大,从而可能将softmax函数推向梯度很小的区域。这种缩放按元素应用于 分数 矩阵:
维度仍为 。
为了将缩放分数转换为概率(注意力权重 (weight)),softmax函数独立地应用于 缩放分数 矩阵的每一行。对于给定行 ,softmax确保查询 对所有键 分配的注意力权重总和为1。
结果得到的注意力权重矩阵 的维度也为 。 代表位置 的查询对位置 的键(及关联值)关注的比例。
最后,注意力权重 (weight) 用于计算值向量 (vector) 的加权和。这通过矩阵乘法完成:
输出矩阵的维度为 。输出 矩阵的每行 是位置 对应的上下文 (context)向量。它是序列中所有值向量的组合,根据为查询 计算的注意力分布进行加权。
这种基于矩阵的表述的精妙之处在于其可并行性。每个步骤,主要涉及矩阵乘法,都可以在为这类操作设计的硬件上高效执行。与按顺序处理标记 (token)()的循环模型不同,注意力机制 (attention mechanism)能够基本并行地计算所有位置对 之间的交互。这解决了限制RNN和LSTM的顺序瓶颈,从而实现更快的训练和对更长序列的处理(在适用情况下)。
流程图描绘了使用矩阵运算计算缩放点积注意力的过程。维度表示为(行 x 列),其中 n 是序列长度,dk 是键的维度,dv 是值的维度。
了解这种矩阵表述是基础。它不仅说明了注意力如何高效计算,而且作为在深度学习 (deep learning)框架中实现注意力层的基础,这些框架高度依赖优化的矩阵运算。下一节将通过动手实践来实现缩放点积注意力机制,从而加深您的理解。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造