趋近智
在大规模RAG系统的检索机制已具备的前提下,本章将重点放在大语言模型(LLM)这一组成部分上。LLM的效率和效果对分布式RAG的整体性能、成本和响应质量有重大影响。
在本章中,你将学习到提升大语言模型(LLM)在这些大型系统中运行效率的实用方法。我们将介绍:
本章还包含一个专注于微调LLM的动手实践部分,提供了一个应用这些优化技术、以在特定RAG任务上提升性能的机会。
3.1 高效LLM服务架构
3.2 领域专用RAG的参数高效微调
3.3 LLM部署的量化与剪枝技术
3.4 处理大规模检索数据集时的长上下文
3.5 大规模减少幻觉的策略
3.6 多LLM RAG架构与智能路由
3.7 动手实践:为特定任务RAG微调LLM
© 2026 ApX Machine Learning用心打造