所有课程

生产环境中RAG系统的优化

章节 1: 生产级RAG系统的核心构成

生产级RAG架构：扩容考量

识别RAG流程中的性能瓶颈

生产环境RAG评估的高级指标

RAG系统长期维护的难题

RAG生产部署的基础设施考量

RAG组件的版本控制与实验追踪

生产环境RAG系统中的安全考量

章节 2: 高级检索优化方法

嵌入模型的专业化微调

混合搜索：结合密集与稀疏检索器

提高相关性的高级重排架构

查询增强：扩展与改写

为各类数据源优化分块策略

高级文档表示方法：多向量与 ColBERT

整合知识图谱以优化检索

主动学习以改进检索器

实践：实施与评估进阶重排序

章节 3: 优化生成部分

针对RAG特定生成任务微调大语言模型

控制LLM输出：风格、语气和真实性

减轻RAG输出中的幻觉

生产RAG系统的高级提示工程

高效的大语言模型：蒸馏与量化

实施防护措施与内容安全

生成内容质量的生产评估

动手实践：为RAG任务微调较小的LLM

章节 4: 端到端 RAG 系统性能优化

分析与降低RAG系统延迟

提升 RAG 吞吐量以应对高峰负载

在 RAG 管道中实施缓存策略

异步处理和请求批处理

向量数据库优化：索引与分片

运用硬件加速于RAG

生产RAG系统的负载均衡与自动伸缩

实践：RAG 流水线的性能分析与延迟优化

章节 5: 生产RAG的成本优化

识别生产RAG中的成本要素

RAG的经济高效模型选择

减少 LLM Token 使用量的方法

优化数据摄取与存储成本

基础设施选择：RAG系统的无服务器与预置方案

实施使用限额和预算

成本异常监控与警报

实践：RAG应用示例的成本建模

章节 6: 生产环境下的高级评估与监控

进阶RAG评估框架 (RAGAS, ARES)

离线评估与在线评估方法

自动化评估流程

监控检索组件中的漂移

RAG 系统中 LLM 表现的监控

将用户反馈纳入RAG系统优化

RAG 优化的 A/B 测试方法

构建RAG系统健康仪表盘

动手实践：构建 RAG 监控仪表盘

章节 7: 可扩展性、可靠性和可维护性

RAG系统的高可用架构设计

在RAG中实现容错

管理知识库更新与刷新周期

多租户与多RAG实例管理

使用CI/CD流水线自动化RAG部署

RAG系统中的数据治理与血缘追溯

生产RAG问题的高级调试

RAG 系统的运行文档

实践：设计可扩展的RAG架构

生产级RAG架构：扩容考量

这部分内容有帮助吗？

参考文献

A Survey on Retrieval-Augmented Generation, Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang, 2023 arXiv preprint arXiv:2312.10997 DOI: 10.48550/arXiv.2312.10997 - 对检索增强生成系统进行全面概述，涵盖其架构、组件和挑战，有助于理解生产RAG设计的基础方面。
Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 关于构建可扩展、可靠和可维护的数据密集型系统的指南，其原则直接适用于RAG架构中矢量数据库、消息队列和分布式组件的扩展。
Production MLOps: A Practical Guide to Deploying, Operating, and Maintaining Machine Learning Systems, Mikhail Shleifer, Peter C. P. B. Smith, Kobi Nitsan, 2023 (O'Reilly Media) - 提供关于MLOps实践的实用指导，涵盖机器学习系统在生产环境中的部署、运营和维护，为扩展RAG组件提供了广阔的背景。

© 2025 ApX Machine Learning用心打造