Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela, 2020Advances in Neural Information Processing Systems (NeurIPS)DOI: 10.48550/arXiv.2005.11401 - 介绍核心检索增强生成(RAG)架构,明确LLM增强外部数据检索的需求,为文档加载和切分奠定基础。
Text splitters, LangChain, 2024 (LangChain) - 官方文档,详细介绍将大型文档拆分为更小、更易管理块的策略和实现,包括不同的切分技术和重叠考虑。
Building LLM-Powered Applications, Andrew Catton, Shreyas Subramanian, Matthew Ready, and Karan Singh, 2024 (O'Reilly Media) - 提供开发LLM应用的实用指导,包括RAG系统所需的数据准备、文档处理和检索策略等章节。