Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017arXivDOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构及其组成部分的奠基性论文,详述了解码器中的遮蔽自注意力机制。
Dive into Deep Learning, Aston Zhang, Zack C. Lipton, Mu Li, and Alexander J. Smola, 2024 (Cambridge University Press) - 一本全面的开源教科书,提供了深度学习模型的详细解释和实际实现,其中有一章专门介绍Transformer架构及其遮蔽自注意力机制。