Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (Curran Associates, Inc.)DOI: 10.48550/arXiv.1706.03762 - 介绍了Transformer架构及其学习率调度,包括预热阶段,这已成为大型语言模型的标准实践。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本全面的深度学习教科书,涵盖了基础概念,包括对梯度裁剪作为优化稳定技术的详细解释。