趋近智
标准Transformer架构虽然有效,却带来了计算上的难题,主要体现在自注意力 (self-attention)机制 (attention mechanism)与输入序列长度相关的二次复杂度。这种复杂性限制了Transformer在处理非常长序列时的实际使用。
本章审视这些局限,并介绍了几种旨在提升效率和性能的架构改进。我们将分析普通自注意力机制的计算成本,然后研究替代方案,包括:
通过研究这些变体,您将了解当前旨在使Transformer模型更具可扩展性和效率、以适应多种应用场景的研究与发展。
6.1 自注意力机制的计算复杂度
6.2 稀疏注意力机制
6.3 近似注意力机制:线性Transformer
6.4 基于核的注意力近似 (Performers模型)
6.5 低秩投影方法(Linformer)
6.6 Transformer-XL:分段循环
6.7 相对位置编码
6.8 预归一化与后归一化 (预LN与后LN)
6.9 神经网络语言模型的缩放法则
6.10 参数效率与共享技术
© 2026 ApX Machine Learning用心打造