所有课程

生产环境中RAG系统的优化

章节 1: 生产级RAG系统的核心构成

生产级RAG架构：扩容考量

识别RAG流程中的性能瓶颈

生产环境RAG评估的高级指标

RAG系统长期维护的难题

RAG生产部署的基础设施考量

RAG组件的版本控制与实验追踪

生产环境RAG系统中的安全考量

章节 2: 高级检索优化方法

嵌入模型的专业化微调

混合搜索：结合密集与稀疏检索器

提高相关性的高级重排架构

查询增强：扩展与改写

为各类数据源优化分块策略

高级文档表示方法：多向量与 ColBERT

整合知识图谱以优化检索

主动学习以改进检索器

实践：实施与评估进阶重排序

章节 3: 优化生成部分

针对RAG特定生成任务微调大语言模型

控制LLM输出：风格、语气和真实性

减轻RAG输出中的幻觉

生产RAG系统的高级提示工程

高效的大语言模型：蒸馏与量化

实施防护措施与内容安全

生成内容质量的生产评估

动手实践：为RAG任务微调较小的LLM

章节 4: 端到端 RAG 系统性能优化

分析与降低RAG系统延迟

提升 RAG 吞吐量以应对高峰负载

在 RAG 管道中实施缓存策略

异步处理和请求批处理

向量数据库优化：索引与分片

运用硬件加速于RAG

生产RAG系统的负载均衡与自动伸缩

实践：RAG 流水线的性能分析与延迟优化

章节 5: 生产RAG的成本优化

识别生产RAG中的成本要素

RAG的经济高效模型选择

减少 LLM Token 使用量的方法

优化数据摄取与存储成本

基础设施选择：RAG系统的无服务器与预置方案

实施使用限额和预算

成本异常监控与警报

实践：RAG应用示例的成本建模

章节 6: 生产环境下的高级评估与监控

进阶RAG评估框架 (RAGAS, ARES)

离线评估与在线评估方法

自动化评估流程

监控检索组件中的漂移

RAG 系统中 LLM 表现的监控

将用户反馈纳入RAG系统优化

RAG 优化的 A/B 测试方法

构建RAG系统健康仪表盘

动手实践：构建 RAG 监控仪表盘

章节 7: 可扩展性、可靠性和可维护性

RAG系统的高可用架构设计

在RAG中实现容错

管理知识库更新与刷新周期

多租户与多RAG实例管理

使用CI/CD流水线自动化RAG部署

RAG系统中的数据治理与血缘追溯

生产RAG问题的高级调试

RAG 系统的运行文档

实践：设计可扩展的RAG架构

提升 RAG 吞吐量以应对高峰负载

这部分内容有帮助吗？

参考文献

Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 为构建可扩展、可靠和可维护的分布式系统提供全面指导，涵盖横向/纵向扩展、负载均衡、分片和并发等主题。
NVIDIA Triton Inference Server User Guide, NVIDIA Corporation, 2024 (NVIDIA Corporation) - 详细介绍了一种高性能推理服务解决方案，支持动态批处理和高效GPU利用率，对于扩展RAG组件的吞吐量至关重要。
Horizontal Pod Autoscaler, Kubernetes Authors, 2024 (The Kubernetes Project) - 官方文档，介绍Kubernetes如何根据观察到的CPU利用率或自定义指标自动调整部署中的Pod数量，这是RAG组件自动扩展的核心。
Milvus: A Purpose-Built Vector Database for Scalable Similarity Search, Jianguo Li, Kai Wang, Xiaomeng Huang, Xiangyu Li, Tao Li, Haojie Zuo, Kun Liu, Jing Li, Yan Liang, Yuhua Zou, Guoliang Li, Jun Jiang, 2021 Proceedings of the VLDB Endowment, Vol. 14 (VLDB Endowment) DOI: 10.14778/3476249.3476269 - 介绍了Milvus的架构和扩展机制，Milvus是一个为高吞吐量相似性搜索设计的分布式向量数据库，与RAG中的向量数据库组件扩展相关。

© 2025 ApX Machine Learning用心打造