Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, Patrick Lewis, Ethan Perez, Aleksa Gordić, Vladimir Karpukhin, Myle Ott, Sebastian Riedel, Douwe van der Vaart, 2020Advances in Neural Information Processing Systems (NeurIPS 2020), Vol. 33 (Neural Information Processing Systems Foundation)DOI: 10.48550/arXiv.2005.11401 - 这篇开创性论文介绍了检索增强生成(RAG)框架,确立了文本分块等有效数据准备方法对于提升语言模型性能的必要性。
Text splitters, LangChain Documentation, 2024 - 官方文档提供了多种文本分块策略的解释和实现细节,包括固定大小和递归方法,这些策略在实际的RAG应用中被使用。