Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (NIPS 2017), Vol. 30DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer模型的原始论文,详细阐述其架构,包括用于输出生成的最终线性投影和softmax。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本全面的教科书,涵盖了深度学习的基本组成部分,例如用于分类的线性变换和softmax激活函数。