传统循环神经网络方法的局限性

这部分内容有帮助吗？

参考文献

On the difficulty of training recurrent neural networks, Razvan Pascanu, Caglar Gulcehre, Kyunghyun Cho, Yoshua Bengio, 2013 Proceedings of the 30th International Conference on Machine Learning (ICML) DOI: 10.1137/1.9781611973001.27 - 讨论了循环神经网络训练中的挑战，特别是梯度消失和梯度爆炸。
Long Short-Term Memory, Sepp Hochreiter, Jürgen Schmidhuber, 1997 Neural Computation, Vol. 9 DOI: 10.1162/neco.1997.9.8.1735 - 介绍了长短期记忆（LSTM）架构，用于处理循环神经网络中的长程依赖。
Sequence to Sequence Learning with Neural Networks, Ilya Sutskever, Oriol Vinyals, Quoc V. Le, 2014 Advances in Neural Information Processing Systems (NIPS) 27 - 提出了一种通用的端到端序列学习方法，通过固定大小的上下文向量展示了编码器-解码器结构。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017 Advances in Neural Information Processing Systems (NIPS) 30, Vol. 30 (Curran Associates, Inc.) DOI: 10.48550/arXiv.1706.03762 - 介绍了Transformer模型，旨在克服循环模型在序列计算和长程依赖捕捉方面的局限。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 为循环神经网络、通过时间反向传播及相关训练难题提供了基础。