趋近智
为了理解 Transformer 架构的创新之处,首先了解其之前的序列处理模型结构是有帮助的。本章简要回顾循环神经网络 (neural network) (RNN) 及其更为复杂的变体:长短期记忆 (LSTM) 网络和门控循环单元 (GRU)。
我们将考察:
此次回顾为理解为何注意力机制 (attention mechanism)和 Transformer 架构在序列数据建模中代表了重大转变提供了背景,我们将在后续章节中进行讲解。
3.1 循环神经网络 (RNN) 的基本内容
3.2 简单RNN的局限性
3.3 长短期记忆(LSTM)网络
3.4 门控循环单元 (GRU)
3.5 基于RNN的序列到序列模型
© 2026 ApX Machine Learning用心打造