Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 这是一本内容全面的教科书,涵盖了深度学习的理论基础和实践方面,包括对循环神经网络、LSTM、GRU及其在处理长程依赖方面局限性的详细说明。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 这篇开创性论文介绍了Transformer架构,通过完全依赖注意力机制并消除循环,从根本上解决了长程依赖问题。