章节 4: 位置编码与嵌入层

前几章介绍了自注意力 (self-attention)机制 (attention mechanism)，它使得模型能够评估不同输入元素之间的相对重要性。然而，核心的注意力计算是对查询、键和值集合进行操作，自身无法体现输入的序列顺序。本章将解决这个问题。

我们将首先考察输入嵌入 (embedding)层，它负责将输入标记 (token)转换为连续向量 (vector)表示。随后主要研究编码位置信息的方法。我们将研究广泛使用的正弦位置编码 (positional encoding)方案，包括其数学表达式，例如：

$PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})$ $PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})$