Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NIPS 2017), Vol. 30 (Curran Associates, Inc.)DOI: 10.5555/3295222.3295349 - 介绍Transformer架构的基石论文,该架构支撑了大多数现代大型语言模型,并使其能够进行复杂的上下文理解和下一个词元预测。
Speech and Language Processing (3rd ed. draft), Daniel Jurafsky and James H. Martin, 2025 - 一本全面的教材,涵盖语言模型、序列预测以及自然语言处理的统计基础,这些是理解大型语言模型机制的。第三章(“N-gram 语言模型”)和深度学习在自然语言处理中的应用等相关章节尤为切合主题。