趋近智
前几章介绍了自注意力机制,它使得模型能够评估不同输入元素之间的相对重要性。然而,核心的注意力计算是对查询、键和值集合进行操作,自身无法体现输入的序列顺序。本章将解决这个问题。
我们将首先考察输入嵌入层,它负责将输入标记转换为连续向量表示。随后主要研究编码位置信息的方法。我们将研究广泛使用的正弦位置编码方案,包括其数学表达式,例如:
PE(pos,2i)=sin(pos/100002i/dmodel) PE(pos,2i+1)=cos(pos/100002i/dmodel)
我们将分析使这些函数适用的特性,以及它们通常如何与标记嵌入结合使用。我们还将讨论可学习的位置嵌入等其他方法,并比较它们的特点。
4.1 位置信息的必要性
4.2 输入嵌入层转换
4.3 正弦型位置编码:公式表述
4.4 正弦编码的特性
4.5 结合嵌入与位置编码
4.6 替代方案:学习型位置嵌入
4.7 比较:正弦式与学习式嵌入
4.8 实践:生成与可视化位置编码
© 2026 ApX Machine Learning用心打造