Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本标准教材,在机器学习和深度学习的背景下建立了线性代数、微积分和概率的数学符号体系。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Neural Information Processing Systems (NeurIPS)DOI: 10.48550/arXiv.1706.03762 - 介绍了 Transformer 架构,并定义了其组件(如 Q、K、V 矩阵和自注意力机制)所使用的许多特定符号。