数据获取与预处理: 尽管源数据获取成本（例如，专有数据集的许可费、API费用）可能很高，但用于预处理的计算资源通常提供更直接的优化机会。
- 高效预处理: 清理、标准化、格式转换以及特别是文档分块等任务，都会消耗CPU、内存和时间。
  - 算法效率: 选择以性能著称的解析器和文本处理库。例如，使用spaCy的管道功能进行批量处理，或使用Polars/Vaex进行大规模表格数据操作，在处理超大数据集时，可以比Pandas的逐行操作更高效。
  - 增量处理: 设计您的管道，使其仅处理新增或修改的文档。对文档内容进行哈希处理有助于高效识别变更。这避免了对知识库静态部分的重复计算。
  - 智能分块: 尽管在第2章中提到了检索准确性，但分块方案也影响成本。过于细粒度的分块会增加生成和存储的嵌入 (embedding)数量。请优化分块大小和重叠，以平衡检索质量与处理和存储的数据量。
嵌入生成: 如果您自行托管嵌入模型，这通常是数据摄取中计算最密集的环节之一；如果使用第三方服务，则会产生直接的API成本。
- 模型选择: 如在更广的模型选择背景（5.2节）中讨论的，请选择在性能、嵌入维度（影响存储）以及推理 (inference)成本/速度之间取得良好平衡的嵌入模型。对于特定领域，小型专业模型有时能以更低的成本超越大型通用模型。
- 批处理: 将文档以批次方式而非逐个发送给嵌入模型。大多数嵌入框架和API都针对批处理进行了优化，可以显著减少每个文档的开销，并在自行托管时提高GPU利用率。
- 硬件加速: 如果自行托管，请确保有效利用可用的GPU等硬件。sentence-transformers等框架只需最少配置即可利用CUDA。
- 避免重复嵌入: 与增量预处理类似，请确保您仅为新增或更新的分块生成嵌入。维护文档/分块标识符与其校验和或修改日期的映射关系。

控制存储开销

一旦数据被处理和嵌入 (embedding)，存储成本便开始产生。这些成本可按数据类型和存储系统进行分解。

原始和已处理的文本数据:
- 压缩: 文本数据的压缩效果非常好。在存储原始文档或甚至已处理分块（如果它们与向量 (vector)数据库分开存储）之前，请应用Gzip、Brotli或Zstandard等无损压缩算法。这可以将普通文本的存储需求减少70-80%或更多。例如，1TB的原始文本文档在有效压缩后可能会减少到200-300GB。
- 存储分层: 云服务提供商提供不同的存储层级（例如，Amazon S3 Standard、S3 Infrequent Access、S3 Glacier）。将频繁访问的已处理数据或活跃知识库组件存储在更热、更快的层级。将原始源数据或更旧、访问频率较低的版本归档到更便宜、更冷的层级。实施生命周期策略以自动化此转换。
此图显示了数据从原始状态到压缩状态，以及根据访问频率进入不同存储层级的流向。
向量数据库存储: 向量嵌入会消耗大量空间，特别是在高维度和大数据集的情况下。
- 嵌入维度: 尽管更高的维度有时可以捕获更多含义，但它们会直接增加存储空间（并且通常增加查询延迟）。评估低维嵌入模型（例如384或512而不是768或1024）是否能为您的使用场景提供可接受的检索性能（嵌入模型选择请参阅第2章）。
- 向量量化 (quantization): 这是一种有效技术，可以在检索准确性方面有可控取舍的前提下，减少嵌入的存储占用空间。
  - 标量量化（SQ）: 降低浮点数的精度（例如，将float32降至float16或int8）。对于许多数据集，可以在精度损失极小的情况下将存储空间减半或四分之一。
  - 乘积量化（PQ）: 将向量分成子向量，然后使用类似k-means聚类的方法独立量化每个子向量。它提供更高的压缩比，但可能对准确性影响更大，尤其是在非常激进的量化下。
  - 许多现代向量数据库（例如Weaviate、Qdrant、Milvus）提供对量化的内置支持。例如，一个768维的float32向量占用 $768 \times 4 = 3072$ 字节。通过int8量化，它变为 $768 \times 1 = 768$ 字节（减少4倍）。
- 索引优化: 向量数据库中使用的索引类型（例如HNSW、IVF_FLAT）具有影响构建时间、存储大小、查询速度和准确性之间权衡的参数 (parameter)。根据您的具体需求调整这些参数（例如，HNSW的ef_construction、M；IVF的聚类中心数量）。某些索引可能会存储额外的数据结构，从而增加存储开销。
- 元数据存储: 注意与向量一起存储的元数据大小。虽然每个向量的元数据通常很小，但数百万向量的庞大元数据总量可能很大。只在向量数据库中存储必要的元数据，并考虑链接到外部存储以获取更大、不常查询的属性。
每768维向量的存储字节数，显示了从原始float32表示到int8标量量化以及4位乘积量化的缩减情况。

提升成本效益的数据管理方法

脱离管道和存储系统的具体细节，更普遍的数据管理做法对成本控制有重要作用。

数据去重: 冗余文档或高度相似的分块会增加处理、嵌入 (embedding)和存储成本，也可能影响检索结果。请在不同阶段实施去重：
- 源数据层面: 如果可能，请在您的原始数据源中识别并移除重复项。
- 分块后: 使用MinHash或SimHash等技术在嵌入前检测近似重复的分块。这可以节省嵌入成本和向量 (vector)存储空间。
数据生命周期管理: 并非所有数据都会无限期地保持关联性。请制定以下策略：
- 归档: 将更旧、关联性较低的数据从活跃的RAG知识库（及其昂贵的热存储）移至更便宜的归档存储。
- 删除: 安全删除不再需要或已超出保留期限的数据，并遵守数据治理策略。这对于频繁更新的动态知识库尤为重要。
选择性摄取和过滤: 盲目摄取所有数据会导致高成本。请制定明确标准，确定哪些数据有足够价值被包含在您的RAG系统中。
- 基于内容的过滤: 使用关键词过滤、主题建模，甚至小型分类器模型来预先过滤文档，再让它们进入摄取管道中成本较高的部分。
- 源数据优先级排序: 将摄取工作重点放在高价值、高质量的数据源上。
定期审计与清理: 定期审计您存储的数据。识别并移除以下内容：
- 孤立数据（例如，其源文档已不存在的嵌入）。
- 过时版本，如果并非所有历史数据都严格需要版本控制。
- 在检索评估中表现持续不佳或收到负面用户反馈的数据。

监控与迭代

数据摄取和存储的成本优化并非一次性任务。

追踪指标: 监控已处理的原始数据量、生成的分块和嵌入 (embedding)数量、总存储大小（原始、已处理、向量 (vector)数据库）、摄取管道运行时和计算成本，以及嵌入服务的API成本。
设置预算和警报: 利用云服务提供商工具，为与数据摄取相关的存储和计算设置预算，并在成本接近阈值时接收警报。
审查与改进: 定期审查这些指标和您的数据管理策略。随着数据增长和使用模式演变，您的最佳成本节约措施也可能发生变化。例如，如果新数据类型的检索准确性低于临界阈值，最初可接受的量化 (quantization)策略可能需要重新评估。

通过系统地处理数据生命周期每个阶段的成本，从初始处理到长期存储，您可以构建一个更可持续、经济上可行的生产RAG系统。这些优化通常伴随着系统性能和可管理性的提升。

参考文献

Efficient and Robust Approximate Nearest Neighbor Search Using Hierarchical Navigable Small World Graphs, Yu. A. Malkov, D. A. Yashunin, 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 42 (IEEE Computer Society) DOI: 10.1109/TPAMI.2018.2889473 - 介绍了分层可导航小世界图（HNSW），这是一种广泛应用于向量数据库的算法，用于高效、可扩展的近似最近邻搜索，影响索引存储和查询性能。
Amazon S3 Storage Classes, Amazon Web Services (AWS), 2024 (Amazon Web Services) - 提供有关各种 Amazon S3 存储类和生命周期管理策略的详细信息，对于原始和处理过的文本数据的经济高效的数据分层和归档很重要。
Engineering MLOps: From Model to Production, Emmanuel Raj, Larysa Visengeriyeva, Arpit Shah, 2022 (O'Reilly Media) - 涵盖了构建和管理生产机器学习系统的最佳实践，包括高效的数据摄取管道、数据版本控制以及与RAG系统核心相关的成本意识设计。
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, Nils Reimers, Iryna Gurevych, 2019 Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP) DOI: 10.48550/arXiv.1908.10084 - 介绍了 Sentence-BERT 框架，它是 sentence-transformers 库的基础，为 RAG 系统的高效嵌入生成、模型选择和批处理提供了见解。

优化数据摄取与存储成本

分解摄取管道成本

从原始数据到可索引、可查询的知识库，涉及多个步骤，每个步骤都有相关成本。了解这些是进行优化的第一步。

数据获取与预处理: 尽管源数据获取成本（例如，专有数据集的许可费、API费用）可能很高，但用于预处理的计算资源通常提供更直接的优化机会。
- 高效预处理: 清理、标准化、格式转换以及特别是文档分块等任务，都会消耗CPU、内存和时间。
  - 算法效率: 选择以性能著称的解析器和文本处理库。例如，使用spaCy的管道功能进行批量处理，或使用Polars/Vaex进行大规模表格数据操作，在处理超大数据集时，可以比Pandas的逐行操作更高效。
  - 增量处理: 设计您的管道，使其仅处理新增或修改的文档。对文档内容进行哈希处理有助于高效识别变更。这避免了对知识库静态部分的重复计算。
  - 智能分块: 尽管在第2章中提到了检索准确性，但分块方案也影响成本。过于细粒度的分块会增加生成和存储的嵌入 (embedding)数量。请优化分块大小和重叠，以平衡检索质量与处理和存储的数据量。
嵌入生成: 如果您自行托管嵌入模型，这通常是数据摄取中计算最密集的环节之一；如果使用第三方服务，则会产生直接的API成本。
- 模型选择: 如在更广的模型选择背景（5.2节）中讨论的，请选择在性能、嵌入维度（影响存储）以及推理 (inference)成本/速度之间取得良好平衡的嵌入模型。对于特定领域，小型专业模型有时能以更低的成本超越大型通用模型。
- 批处理: 将文档以批次方式而非逐个发送给嵌入模型。大多数嵌入框架和API都针对批处理进行了优化，可以显著减少每个文档的开销，并在自行托管时提高GPU利用率。
- 硬件加速: 如果自行托管，请确保有效利用可用的GPU等硬件。sentence-transformers等框架只需最少配置即可利用CUDA。
- 避免重复嵌入: 与增量预处理类似，请确保您仅为新增或更新的分块生成嵌入。维护文档/分块标识符与其校验和或修改日期的映射关系。