标准Transformer架构虽然有效,却带来了计算上的难题,主要体现在自注意力机制与输入序列长度$N$相关的二次复杂度$O(N^2)$。这种复杂性限制了Transformer在处理非常长序列时的实际使用。本章审视这些局限,并介绍了几种旨在提升效率和性能的架构改进。我们将分析普通自注意力机制的计算成本,然后研究替代方案,包括:稀疏注意力机制: 限制注意力计算到特定模式的方法,减少查询-键比较的数量。线性注意力近似: 例如Linformer和Performer之类的方法,它们使用低秩投影或核方法等技术来近似注意力矩阵,目标是达到线性$O(N)$复杂度。Transformer-XL: 引入循环机制,以更有效地处理更长的上下文。相对位置编码: 一种表示序列顺序的替代方式,基于成对距离。归一化放置位置: 比较Pre-LN和Post-LN变体以及它们对训练动态的影响。缩放定律: 关于模型大小、数据集大小、计算量和性能之间关系的实证观察。参数效率: 减少模型参数数量而不明显牺牲性能的技术。通过研究这些变体,您将了解当前旨在使Transformer模型更具可扩展性和效率、以适应多种应用场景的研究与发展。