Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 介绍Transformer架构的基础论文,详细说明解码器的最终线性层和softmax、权重共享机制以及标签平滑。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 权威的深度学习教材,涵盖深度学习的核心概念,包括线性层、softmax函数、概率分布和交叉熵损失。