趋近智
为理解Transformer架构的设计动因,我们首先回顾了之前用于序列建模的主要方法。循环神经网络(RNNs)、长短期记忆网络(LSTMs)和门控循环单元(GRUs)在处理序列数据方面代表了重要的进展。然而,其固有的结构存在一些局限性,阻碍了进展,尤其是在序列长度不断增加的情况下。
本章将审视这些具体的挑战。我们将讨论:
认识到这些限制,能为理解Transformer模型在后续章节中引入的架构创新提供必要的背景信息。
1.1 循环网络中的顺序计算
1.2 梯度消失与梯度爆炸问题
1.3 长短期记忆(LSTM)门控机制
1.4 门控循环单元 (GRU) 架构
1.5 远距离依赖的挑战
1.6 循环模型中的并行化限制
© 2026 ApX Machine Learning用心打造