远距离依赖的挑战

尽管 LSTM 和 GRU 引入了门控机制，以应对简单 RNN 中存在的严重梯度消失问题，但它们在捕获序列中相距很远元素之间的关系时，仍面临固有的困难。这一局限性直接源于信息处理的序列性质。

可以将 RNN 中的隐藏状态 $h_t$ 视为截至时间步 $t$ 所见序列的运行概括或记忆。为了影响在晚得多的时间步 $N$ 的输出或状态，来自早期时间步 $t$ 的信息必须成功地传播经过所有中间步骤 $t+1, t+2, \dots, N-1$ 。这条序列路径充当了瓶颈。

从数学角度来看，这与时间反向传播 (backpropagation)过程中梯度的传播有关。损失 $L$ 对早期隐藏状态 $h_t$ 的梯度，取决于代表每一步状态转换的雅可比矩阵的乘积：

\frac{\partial L}{\partial h_t} = \frac{\partial L}{\partial h_N} \left( \prod_{k=t+1}^{N} \frac{\partial h_k}{\partial h_{k-1}} \right)

即使 LSTM 和 GRU 被设计成使这些雅可比范数平均更接近 1，但在大量步骤（ $N-t$ 很大）上传播信息仍然是困难的。门控提供了对信息流的控制，使得网络能够比简单 RNN 更长时间地保留重要信息。然而，这种控制并非完美。

信息衰减： 经过许多步骤后，每一步即使是少量的信息丢失或转换也会累积，使得网络难以精确回忆或使用来自久远过去的信息。状态向量 (vector) $h_t$ 具有固定大小，这迫使网络将任意长的历史压缩成固定维度的表示。这种压缩不可避免地导致信息丢失，特别是对于序列中更早的细节。
路径长度： 信息在序列中两点之间传播所需的计算步骤数与其距离成正比。这意味着学习远距离元素之间的依赖关系，需要梯度在相应长的路径上成功传播，即使有门控也仍然困难。LSTM 可能会忘记信息，即使它后来被证明是相关的，或者难以在数千个步骤中传输特定信息而没有退化。

考虑一下这种局限性变得明显的任务：

文档分析： 在处理一篇长文章时，将一个结论性陈述与第一段中引入的前提联系起来，需要在数千字间保持最初的语境。
机器翻译： 翻译句子时，语法一致性或词汇选择取决于源句中相距很远的词语（例如，跨多个从句的主谓一致）。
长篇问答： 回答一个问题，其答案需要综合一份长文档中分散的信息。
代码生成： 在大型代码文件中，保持对早前进行的变量声明或函数定义的语境。

下图说明了循环模型中固有的序列依赖路径。来自 Input 1 的信息必须经过每一个中间隐藏状态才能影响 Output N。

RNN 中时间步 t 和 N 之间信息流的序列路径长度与 N-t 成正比。

尽管 LSTM 和 GRU 是显著的改进，但在处理极长距离依赖方面的持续困难直接促使了能够创建相距遥远的序列元素之间更短路径的架构的发展。Transformer 模型，主要是通过其自注意力 (self-attention)机制 (attention mechanism)，提供了一种直接建模序列中任意两个位置之间关系的方法，无论它们距离多远，从而克服了循环处理的这一根本局限。我们将在下一章详细考察这种机制。

这部分内容有帮助吗？

参考文献

Learning Long-Term Dependencies with Gradient Descent Is Difficult, Yoshua Bengio, Patrice Simard, and Paolo Frasconi, 1994 IEEE Transactions on Neural Networks, Vol. 5 (IEEE) DOI: 10.1109/72.279181 - 本文正式指出了循环神经网络中的梯度消失和梯度爆炸问题，这些问题严重阻碍了其学习长程依赖的能力。
Long Short-Term Memory, Sepp Hochreiter and Jürgen Schmidhuber, 1997 Neural Computation, Vol. 9 (MIT Press) DOI: 10.1162/neco.1997.9.8.1735 - 这篇是介绍长短期记忆（LSTM）网络的原始论文，这是一项重要的架构进步，旨在减轻梯度消失问题并更好地捕获长程依赖。
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation, Kyunghyun Cho, Bart van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio, 2014 Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (Association for Computational Linguistics) DOI: 10.3115/v1/D14-1179 - 介绍了门控循环单元（GRU），作为LSTM在序列建模中更简单但有效的一种替代方案，也解决了长程依赖的挑战。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 这是一本内容全面的教科书，涵盖了深度学习的理论基础和实践方面，包括对循环神经网络、LSTM、GRU及其在处理长程依赖方面局限性的详细说明。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017 Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 这篇开创性论文介绍了Transformer架构，通过完全依赖注意力机制并消除循环，从根本上解决了长程依赖问题。