Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 提供了循环神经网络的全面解释,涵盖了它们的序列特性和计算图。参见第10章:序列建模:循环和递归网络。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (NIPS 2017)DOI: 10.48550/arXiv.1706.03762 - 介绍了Transformer架构,直接指出循环网络中序列计算的局限性是其一个推动因素。