相对位置编码

尽管绝对位置编码 (positional encoding)为Transformer提供了理解序列顺序的方式，但它们独立处理每个位置。正弦编码为隐式建模相对距离提供了良好的特性，但它是在注意力机制 (attention mechanism)运行之前添加的。学习到的绝对嵌入 (embedding)可能难以泛化到训练时未见的更长序列。另一种方法是将token之间的相对距离直接纳入注意力计算本身。这是相对位置编码（RPE）背后的主要思想。

直观来看，两个词之间的关系通常更多地取决于它们相距多远，而非它们在序列中的绝对位置。例如，知道一个动词紧跟其主语一个位置，可能比知道主语在位置5、动词在位置6更具泛化性。RPE旨在让模型直接感知这些相对距离。

修改注意力得分

RPE没有将位置信息添加到输入嵌入 (embedding)中，而是修改了自注意力 (self-attention)得分机制。标准缩放点积注意力计算位置 $i$ 的查询 $q_i$ 与位置 $j$ 的键 $k_j$ 之间的得分，如下所示：

\text{得分}(q_i, k_j) = \frac{q_i^T k_j}{\sqrt{d_k}}

其中 $q_i = x_i W^Q$ 和 $k_j = x_j W^K$ ， $x_i, x_j$ 是输入嵌入， $W^Q, W^K$ 是投影矩阵。

相对定位方案将有关 $i$ 和 $j$ 之间关系的信息直接注入此计算。存在几种变体，但它们通常涉及添加取决于相对距离 $i-j$ 的项。

Shaw 等人 (2018) 的公式

一种较早且有影响的方法提出在点积之前，将学习到的相对位置嵌入 (embedding)直接添加到键（有时是值）中。令 $a_{ij}^K$ 和 $a_{ij}^V$ 表示与查询 $i$ 和键/值 $j$ 之间的相对位置相对应的可学习嵌入向量 (vector)。注意力得分计算修改为：

e_{ij} = \frac{(x_i W^Q)^T (x_j W^K + a_{ij}^K)}{\sqrt{d_k}}

接着，使用类似的修改对值向量计算输出值 $z_i$ ：

z_i = \sum_j \text{softmax}(e_{ij}) (x_j W^V + a_{ij}^V)

这里， $a_{ij}^K$ 和 $a_{ij}^V$ 通常通过相对距离 $j-i$ 从嵌入查找表中检索。为了使嵌入数量可控，相对距离通常被裁剪到最大值 $k$ 。也就是说，所有 $j-i > k$ 的距离都映射到相同的嵌入 $a_{i, i+k}^K$ ，而 $j-i < -k$ 的距离则映射到 $a_{i, i-k}^K$ 。

这种方法直接将相对空间偏差注入注意力得分。然而，它需要在注意力矩阵计算中为每个查询-键对计算和存储这些相对嵌入，这可能导致计算量大。

Transformer-XL / Dai 等人 (2019) 的公式

随 Transformer-XL 一同引入的一种更高效且被广泛采用的方法，重新构建了注意力计算，以巧妙地纳入相对位置。回顾涉及绝对位置嵌入 (embedding) $P_i, P_j$ 的标准注意力得分：

A_{i,j}^{\text{绝对}} = (E_{x_i} + P_i)^T W^{Q T} W^K (E_{x_j} + P_j)

展开后得到四个项：内容-内容 ( $E_{x_i}^T \dots E_{x_j}$ )、内容-位置 ( $E_{x_i}^T \dots P_j$ )、位置-内容 ( $P_i^T \dots E_{x_j}$ )，以及位置-位置 ( $P_i^T \dots P_j$ )。

相对公式修改了这种展开方式：

**替换键投影中的绝对位置 $P_j$ ：**在涉及键位置的项中，将绝对位置 $P_j$ 替换为表示 $i$ 和 $j$ 之间偏移量的相对位置编码 (positional encoding) $R_{i-j}$ 。 $R$ 可以是固定的正弦编码矩阵（类似于原始Transformer的位置编码，但使用方式不同），也可以是学习到的嵌入。
**引入可训练的位置偏差：**将查询的绝对位置项 $P_i^T W^{Q T}$ 替换为两个可训练向量 (vector) $u$ 和 $v$ 。这些向量分别代表内容和相对位置的全局“位置偏差”。

由此得到以下分解后的注意力得分计算：

A_{i,j}^{\text{相对}} = \underbrace{E_{x_i}^T W^{Q T} W^K E_{x_j}}_{\text{(a) 基于内容的}} + \underbrace{E_{x_i}^T W^{Q T} W^K R_{i-j}}_{\text{(b) 内容-相对位置}} + \underbrace{u^T W^K E_{x_j}}_{\text{(c) 全局内容偏差}} + \underbrace{v^T W^K R_{i-j}}_{\text{(d) 全局位置偏差}}

项 (a) 与标准注意力中的内容交互相同。
项 (b) 捕获了位置 $i$ 的查询内容如何关联到相对位置 $i-j$ 。
项 (c) 提供了纯粹基于位置 $j$ 的键内容的偏差。
项 (d) 提供了纯粹基于相对位置 $i-j$ 的偏差。

重要的一点是，此公式可以高效实现。涉及 $R_{i-j}$ 的项无需显式构建所有 $(i, j)$ 对的成对相对嵌入即可计算。相反，巧妙的张量操作允许同时高效地计算所有位置上的项 (b) 和 (d)。

实现考量

**裁剪距离：**与 Shaw 等人的方法一样，在索引相对位置嵌入 (embedding) ( $R_{i-j}$ ) 时，通常使用最大相对距离 $k$ 。这假设超长距离的相互作用可能不需要精确的距离信息。
**嵌入类型：**相对位置表示 $R$ 可以基于正弦函数（提供泛化能力），也可以是学习到的嵌入（可能更具表达力但需要更多数据和参数 (parameter)）。
**共享：**相对位置嵌入（无论是正弦的还是学习到的）通常在不同注意力头之间共享，有时也在层之间共享，以减少参数数量。

相对位置编码 (positional encoding)的优势

**提高泛化能力：**RPE，特别是正弦式的或带裁剪的RPE，相比于学习到的绝对位置编码，能更好地泛化到训练时未见的序列长度。模型学习基于距离而非具体位置的模式。
**直接距离建模：**注意力机制 (attention mechanism)能直接感知token间的相对定位，这有利于局部语法或相对顺序很重要的任务。
**经验性成功：**RPE是包括Transformer-XL、T5和DeBERTa在内的几种高性能模型的组成部分，显示了它们的实际效用。

相对位置编码 (positional encoding)的不足

**复杂性增加：**与基线Transformer相比，注意力计算变得更复杂，尽管高效实现（如 Transformer-XL 公式）相比于朴素方法显著减轻了计算开销。
**超参数 (parameter) (hyperparameter)：**引入了诸如裁剪距离 $k$ 和相对编码类型（正弦 vs. 学习）的选择，这可能需要调整。

总而言之，相对位置编码通过将序列顺序信息直接嵌入 (embedding)到注意力机制 (attention mechanism)的得分计算中，为绝对位置编码提供了一个有吸引力的替代方案。通过侧重于成对距离而非绝对位置，它们可以提供更好的泛化能力，并更有效地捕获对距离敏感的关系，在各种现代 Transformer 架构中都很有价值。

这部分内容有帮助吗？

参考文献

Self-Attention with Relative Position Representations, Peter Shaw, Jakob Uszkoreit, Ashish Vaswani, 2018 Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers) (Association for Computational Linguistics) DOI: 10.18653/v1/N18-2074 - 本文提出了最早将相对位置信息通过学习到的相对位置嵌入添加到键和值中，从而引入自注意力机制的明确公式之一。
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context, Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, Ruslan Salakhutdinov, 2019 Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (Association for Computational Linguistics) DOI: 10.18653/v1/P19-1285 - 这项工作提出了一种高效的相对位置编码方案，它重新构建了注意力分数计算，将其分解为内容和相对位置项，有助于更好地处理长序列。
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer, Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu, 2020 JMLR, Vol. 21 (JMLR) - 本文描述了T5模型，该模型采用了简化版的相对位置编码，展示了其在大规模预训练中对各种自然语言处理任务的有效性。
DeBERTa: Decoding-enhanced BERT with Disentangled Attention, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, 2021 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2006.03654 - 这项研究引入了一种分离式注意力机制，通过将内容和相对位置嵌入视为独立的向量来优化相对位置编码，在许多自然语言处理基准测试中取得了优异表现。