所有课程

生产环境中RAG系统的优化

章节 1: 生产级RAG系统的核心构成

生产级RAG架构：扩容考量

识别RAG流程中的性能瓶颈

生产环境RAG评估的高级指标

RAG系统长期维护的难题

RAG生产部署的基础设施考量

RAG组件的版本控制与实验追踪

生产环境RAG系统中的安全考量

章节 2: 高级检索优化方法

嵌入模型的专业化微调

混合搜索：结合密集与稀疏检索器

提高相关性的高级重排架构

查询增强：扩展与改写

为各类数据源优化分块策略

高级文档表示方法：多向量与 ColBERT

整合知识图谱以优化检索

主动学习以改进检索器

实践：实施与评估进阶重排序

章节 3: 优化生成部分

针对RAG特定生成任务微调大语言模型

控制LLM输出：风格、语气和真实性

减轻RAG输出中的幻觉

生产RAG系统的高级提示工程

高效的大语言模型：蒸馏与量化

实施防护措施与内容安全

生成内容质量的生产评估

动手实践：为RAG任务微调较小的LLM

章节 4: 端到端 RAG 系统性能优化

分析与降低RAG系统延迟

提升 RAG 吞吐量以应对高峰负载

在 RAG 管道中实施缓存策略

异步处理和请求批处理

向量数据库优化：索引与分片

运用硬件加速于RAG

生产RAG系统的负载均衡与自动伸缩

实践：RAG 流水线的性能分析与延迟优化

章节 5: 生产RAG的成本优化

识别生产RAG中的成本要素

RAG的经济高效模型选择

减少 LLM Token 使用量的方法

优化数据摄取与存储成本

基础设施选择：RAG系统的无服务器与预置方案

实施使用限额和预算

成本异常监控与警报

实践：RAG应用示例的成本建模

章节 6: 生产环境下的高级评估与监控

进阶RAG评估框架 (RAGAS, ARES)

离线评估与在线评估方法

自动化评估流程

监控检索组件中的漂移

RAG 系统中 LLM 表现的监控

将用户反馈纳入RAG系统优化

RAG 优化的 A/B 测试方法

构建RAG系统健康仪表盘

动手实践：构建 RAG 监控仪表盘

章节 7: 可扩展性、可靠性和可维护性

RAG系统的高可用架构设计

在RAG中实现容错

管理知识库更新与刷新周期

多租户与多RAG实例管理

使用CI/CD流水线自动化RAG部署

RAG系统中的数据治理与血缘追溯

生产RAG问题的高级调试

RAG 系统的运行文档

实践：设计可扩展的RAG架构

在 RAG 管道中实施缓存策略

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Designing Data-Intensive Applications: The Big Ideas Behind Reliable, Scalable, and Maintainable Systems, Martin Kleppmann, 2017 (O'Reilly Media) - 全面涵盖缓存原理、分布式系统和权衡取舍，这些对于在生产环境中实施稳健的缓存策略至关重要。
Caching with Redis, Redis Labs, Accessed 2024 - 提供了使用Redis实现各种缓存策略的官方指南和实际示例，Redis是生产RAG系统常用的选择。
Building Machine Learning Powered Applications: Going from Idea to Product, Emmanuel Ameisen, 2020 (O'Reilly Media) - 本书探讨了构建和部署机器学习应用的实际方面，包括性能和成本考量，其中缓存发挥着重要作用。

© 2025 ApX Machine Learning用心打造