Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (NIPS 2017)DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer模型的奠基性论文,详细阐述了其架构、训练目标(包括交叉熵损失)以及标签平滑的应用。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本权威教材,全面解释了交叉熵损失、其数学基础以及在各种深度学习模型中的应用。