Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30DOI: 10.48550/arXiv.1706.03762 - 介绍了Transformer架构和缩放点积注意力机制,详细阐述了其组成部分和初步的复杂度考量。
Dive into Deep Learning, Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola, 2023 (Cambridge University Press) - 提供了深度学习概念的全面易懂的解释,包括注意力机制及其计算特性的详细分析。