趋近智
如前所述,传统的序列到序列模型常将整个输入序列压缩成一个固定大小的上下文向量。这种方法在处理较长序列时可能难以保留信息,从而造成信息瓶颈。注意力机制提供了一种更具适应性的替代方案,使模型能够回顾整个输入序列,并有选择地侧重于与生成当前输出最相关部分。
为使这种有选择的关注形式化,注意力机制采用了一种基于三个要素的表示:查询、键和值。设想你在数字图书馆中研究一个主题。
注意力机制的工作方式与此类似:对于给定的查询,它会将查询与所有可用键进行比较,以确定它们的匹配程度。此匹配过程会生成一组分数,常被称为注意力权重。这些权重表明每个键(及其对应的值)与查询的关联性。最后,该机制通过汇总值来得出输出,根据其计算出的注意力分数对每个值进行加权。与查询高度匹配的键所对应的值对最终输出的贡献更大。
在神经网络中,查询、键和值表示为从模型内部表示(嵌入或隐藏状态)派生的向量:
使用查询、键和值表示的注意力流。查询与所有键进行比较以得出权重,然后这些权重用于形成相应值的加权和。
核心观点是,查询与键互动以了解何处进行侧重,而由此产生的注意力分数则决定了每个值对最终输出表示的贡献程度。此输出是一个具备上下文感知能力的向量,它概括了与特定查询相关的输入序列元素。
在注意力机制中,查询、键和值向量是核心组成部分,它们的维度通常分别表示为 dq、dk 和 dv。查询和键之间的兼容性常使用它们的向量表示来计算,通常通过点积,这要求 dq=dk。维度 dk 在注意力分数如何计算和缩放方面发挥着重要作用,我们很快会看到。值向量的维度 dv 决定了在任何最终转换之前的输出上下文向量的维度。
值得注意的是,这些 Q、K 和 V 向量的来源界定了注意力的类型。在变压器架构中居于核心地位的自注意力中,Q、K 和 V 都源自同一序列。这使得单个序列内的不同位置可以相互关注。在编码器-解码器架构中常见的交叉注意力中,查询可能来自解码器,而键和值则来自编码器的输出,从而使解码器能够关注输入序列的相关部分。目前,我们侧重于 QKV 的通用表示本身。
这种查询-键-值框架提供了一种适应性强且有效的方法来模拟依赖关系,无论它们在输入序列中的距离如何,直接解决了固定上下文向量的局限性。下一步是审视用于实现这种比较和加权过程的特定数学运算,从缩放点积注意力机制开始。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造