趋近智
在自注意力 (self-attention)机制 (attention mechanism)中,目标是让输入序列中的每个词在其特定语境下,判断与其他所有词(包括自身)的相关性。为完成此比较和后续的信息加权,我们把每个输入词的嵌入 (embedding)转变为三种不同的表示:查询、键和值向量 (vector)。
在自注意力机制中,输入序列中的每个词,例如“thinking machine”,最初都由一个嵌入向量表示。词语“thinking”的嵌入表示为 ,而“machine”的嵌入表示为 。这些向量捕获了词语初始的、与语境无关的含义。
进行自注意力计算时,我们不直接比较这些嵌入。取而代之的是,我们使用在训练期间学到的三个不同的权重 (weight)矩阵,将每个嵌入 投影到三个独立的向量空间。这些矩阵通常表示为 、 和 。
具体来说,对于序列中的每个输入嵌入 ,我们计算:
此过程为输入序列中的每个词生成一组独特的查询、键和值向量。这些派生向量的维度(键和查询为 ,值为 )通常可能小于原始嵌入维度()。要求查询和键向量的维度()必须一致,以便它们能够通过点积进行比较。
我们可以将单个输入词元 (token)的此转换过程可视化:
从单个输入嵌入()使用学习到的权重矩阵()推导出查询(q)、键(k)和值(v)向量。
为理解这些向量的作用,可以设想一个搜索数据库的类比:
本质上,查询向量 和键向量 之间的交互决定了从词 到词 的连接强度或注意力权重。值向量 则提供从词 传回词 的信息,并由该注意力权重进行缩放。
一个重要的方面是,权重矩阵 、 和 是在模型训练过程中学习到的参数 (parameter)。它们最初是随机的,但通过反向传播 (backpropagation)进行调整,使得模型能学习到将输入嵌入投影到这些Q、K、V空间的最有效方式,以应对当前任务(例如机器翻译、文本摘要)。这个学习过程使得模型能够理解输入序列中复杂的关联和依赖。
在为每个词生成了这些查询、键和值向量之后,我们现在可以计算实际的注意力分数了。下一节会详细说明点积缩放注意力机制如何使用这些向量来计算精确的注意力权重,这些权重定义了信息在序列中的词之间如何流动。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•