Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 本书为深度学习提供了全面的理论基础,涵盖了神经网络、反向传播、优化算法和损失函数等概念,这些是理解训练循环的基础。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems, Vol. 30 (Curran Associates, Inc.) - 介绍了Transformer架构,它是大型语言模型的基础。理解这一架构有助于掌握LLM如何在前向传播中处理输入并生成logits。