Attention Is All You Need, Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 2017arXivDOI: 10.48550/arXiv.1706.03762 - 这篇基础论文介绍了Transformer架构,该架构是现代大型语言模型的基础,并解释了它们为何本质上处理固定大小的输入,从而在没有显式记忆机制的情况下导致无状态交互模型。
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, 2020NeurIPS 2020DOI: 10.48550/arXiv.2005.11401 - 这篇论文介绍了检索增强生成(RAG)方法,通过从知识库中检索相关信息来增强大型语言模型的输入,从而扩展其对事实性回忆的有效“记忆”,超越了即时对话的限制,解决了上下文窗口限制的问题。