Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 一本基础教材,对深度学习进行了学术性介绍,涵盖了模型参数、学习算法和神经网络架构。对于理解LLM参数的理论基础非常重要。
Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017Advances in Neural Information Processing Systems 30 (NIPS 2017) (Curran Associates, Inc.) - 引入Transformer架构的开创性论文,该架构是现代LLM的基础。它详细描述了数十亿参数所在的模型结构以及它们如何实现语言处理。