机器学习模型的表现与其输入数据的质量和一致性直接相关。虽然前几章侧重于计算密集型训练和模型服务,本章则讨论了支持这些所需的数据系统。在生产环境中,一个重要难题是确保用于模型训练的数据与用于实时推理的数据以相同方式处理。任何差异,即所谓的训练-服务偏差,都可能悄无声息地降低模型表现。本章提供了一种系统方法,用于为生产环境中的机器学习设计数据管道和管理系统。我们将从数据的理论意义转向系统实际构建,这些系统能为训练和模型服务工作负载提供版本化、一致且及时的数据特征。目标是建立一个数据根基,确保可复现性和可靠性。你将学会:设计和构建特征存储,以集中管理特征逻辑并消除训练-服务偏差,确保特征向量$f(x_{train})$与$f(x_{serve})$一致。设计用于批处理和实时特征计算的数据管道,审视延迟和成本之间的权衡。将数据版本控制和血缘信息整合到你的机器学习工作流中,使用DVC等工具使实验可复现、可审计。使用Spark和Ray等分布式框架处理超出单机容量规模的数据集。组织和管理大型数据存储(如数据湖),以有效支撑数据分析和机器学习应用。学完本章,你将具备构建生产级AI平台数据核心的能力,并将通过构建一个基础的特征摄取管道来运用这些知识。