检索增强生成 (RAG) 系统在生产环境中部署后,会产生运行成本,这些成本会随着规模和使用量的增加而上升。有效管理这些费用对于这些系统的长期可行性和运行效率很重要。本章介绍实用策略,用于分析、控制和降低与生产RAG方案相关的财务开销。你将学会识别主要成本因素,例如LLM API调用、向量数据库操作以及计算资源消耗。我们将介绍方法来选择经济的模型,通过仔细的提示设计和上下文管理来减少LLM token使用量,以及优化数据摄取和存储。此外,本章还会讨论基础设施选择,对比无服务器架构和预置资源,并讨论实施使用配额、监控支出以及设置成本异常警报的技术。一个针对代表性RAG应用的成本建模实用练习将帮助巩固这些想法。