趋近智
尽管 LSTM 和 GRU 引入了门控机制,以应对简单 RNN 中存在的严重梯度消失问题,但它们在捕获序列中相距很远元素之间的关系时,仍面临固有的困难。这一局限性直接源于信息处理的序列性质。
可以将 RNN 中的隐藏状态 ht 视为截至时间步 t 所见序列的运行概括或记忆。为了影响在晚得多的时间步 N 的输出或状态,来自早期时间步 t 的信息必须成功地传播经过所有中间步骤 t+1,t+2,…,N−1。这条序列路径充当了瓶颈。
从数学角度来看,这与时间反向传播过程中梯度的传播有关。损失 L 对早期隐藏状态 ht 的梯度,取决于代表每一步状态转换的雅可比矩阵的乘积:
∂ht∂L=∂hN∂L(k=t+1∏N∂hk−1∂hk)即使 LSTM 和 GRU 被设计成使这些雅可比范数平均更接近 1,但在大量步骤(N−t 很大)上传播信息仍然是困难的。门控提供了对信息流的控制,使得网络能够比简单 RNN 更长时间地保留重要信息。然而,这种控制并非完美。
考虑一下这种局限性变得明显的任务:
下图说明了循环模型中固有的序列依赖路径。来自 Input 1 的信息必须经过每一个中间隐藏状态才能影响 Output N。
RNN 中时间步
t和N之间信息流的序列路径长度与N-t成正比。
尽管 LSTM 和 GRU 是显著的改进,但在处理极长距离依赖方面的持续困难直接促使了能够创建相距遥远的序列元素之间更短路径的架构的发展。Transformer 模型,主要是通过其自注意力机制,提供了一种直接建模序列中任意两个位置之间关系的方法,无论它们距离多远,从而克服了循环处理的这一根本局限。我们将在下一章详细考察这种机制。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造