Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017Advances in Neural Information Processing Systems (NIPS) 30DOI: 10.48550/arXiv.1706.03762 - 介绍Transformer架构和自注意力机制,这些是现代LLM处理上下文的核心。
Deep Learning, Ian Goodfellow, Yoshua Bengio, Aaron Courville, 2016 (MIT Press) - 一本全面的深度学习教科书,涵盖深度学习概念,包括序列建模和与上下文处理相关的神经网络架构。