所有课程

生产环境中RAG系统的优化

章节 1: 生产级RAG系统的核心构成

生产级RAG架构：扩容考量

识别RAG流程中的性能瓶颈

生产环境RAG评估的高级指标

RAG系统长期维护的难题

RAG生产部署的基础设施考量

RAG组件的版本控制与实验追踪

生产环境RAG系统中的安全考量

章节 2: 高级检索优化方法

嵌入模型的专业化微调

混合搜索：结合密集与稀疏检索器

提高相关性的高级重排架构

查询增强：扩展与改写

为各类数据源优化分块策略

高级文档表示方法：多向量与 ColBERT

整合知识图谱以优化检索

主动学习以改进检索器

实践：实施与评估进阶重排序

章节 3: 优化生成部分

针对RAG特定生成任务微调大语言模型

控制LLM输出：风格、语气和真实性

减轻RAG输出中的幻觉

生产RAG系统的高级提示工程

高效的大语言模型：蒸馏与量化

实施防护措施与内容安全

生成内容质量的生产评估

动手实践：为RAG任务微调较小的LLM

章节 4: 端到端 RAG 系统性能优化

分析与降低RAG系统延迟

提升 RAG 吞吐量以应对高峰负载

在 RAG 管道中实施缓存策略

异步处理和请求批处理

向量数据库优化：索引与分片

运用硬件加速于RAG

生产RAG系统的负载均衡与自动伸缩

实践：RAG 流水线的性能分析与延迟优化

章节 5: 生产RAG的成本优化

识别生产RAG中的成本要素

RAG的经济高效模型选择

减少 LLM Token 使用量的方法

优化数据摄取与存储成本

基础设施选择：RAG系统的无服务器与预置方案

实施使用限额和预算

成本异常监控与警报

实践：RAG应用示例的成本建模

章节 6: 生产环境下的高级评估与监控

进阶RAG评估框架 (RAGAS, ARES)

离线评估与在线评估方法

自动化评估流程

监控检索组件中的漂移

RAG 系统中 LLM 表现的监控

将用户反馈纳入RAG系统优化

RAG 优化的 A/B 测试方法

构建RAG系统健康仪表盘

动手实践：构建 RAG 监控仪表盘

章节 7: 可扩展性、可靠性和可维护性

RAG系统的高可用架构设计

在RAG中实现容错

管理知识库更新与刷新周期

多租户与多RAG实例管理

使用CI/CD流水线自动化RAG部署

RAG系统中的数据治理与血缘追溯

生产RAG问题的高级调试

RAG 系统的运行文档

实践：设计可扩展的RAG架构

RAG系统的高可用架构设计

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 一本基础性著作，用于理解构建健壮、可伸缩和可维护的分布式系统原则，广泛涵盖了对高可用有状态组件至关重要的数据复制、一致性和容错性。
Release It! Design and Deploy Production-Ready Software, Michael T. Nygard, 2018 (The Pragmatic Programmers) - 专注于韧性模式，包括熔断器、超时和重试，为在复杂的生产环境中构建容错系统和优雅地处理故障提供了实用策略。
AWS Well-Architected Framework: Reliability Pillar, Amazon Web Services, 2024 (Amazon Web Services) - 一份官方指南，概述了在云中设计和运行可靠工作负载的最佳实践，涵盖多可用区/多区域部署、灾难恢复以及高可用性的运维卓越性。
A Survey on Vector Database Management Systems, Xuanhe Zhou, Haopeng Wang, Yonggang Wen, Hanlin Zhang, Yuwei Wu, Jiaheng Lu, Zhiqiang Xu, 2023 arXiv preprint DOI: 10.48550/arXiv.2307.03118 - 提供了各种向量数据库管理系统的架构、功能和挑战的全面概述，包括对其高可用性至关重要的数据复制和可伸缩性策略的讨论。

© 2025 ApX Machine Learning用心打造