在大规模RAG系统的检索机制已具备的前提下,本章将重点放在大语言模型(LLM)这一组成部分上。LLM的效率和效果对分布式RAG的整体性能、成本和响应质量有重大影响。在本章中,你将学习到提升大语言模型(LLM)在这些大型系统中运行效率的实用方法。我们将介绍:高效LLM服务:为RAG中高吞吐量LLM部署而设计的架构,包括vLLM和文本生成推理(TGI)等工具。模型适配:运用参数高效微调(PEFT)技术,以便为特定领域和RAG任务定制LLM。部署优化:采用量化和剪枝等方法,减少LLM大小和推理成本,使其更适合生产环境。长上下文管理:LLM有效处理和使用RAG系统检索到的海量信息的策略。减少幻觉:减少LLM生成事实不正确或不相关信息的可能性,特别是在处理大规模的长篇上下文时。多LLM架构:设计集成多个LLM和智能路由逻辑的RAG系统,以优化响应生成。本章还包含一个专注于微调LLM的动手实践部分,提供了一个应用这些优化技术、以在特定RAG任务上提升性能的机会。