构建基础机器学习流水线

机器学习 (machine learning)流水线将持续集成 (CI)、持续交付 (CD) 和持续训练 (CT) 等自动化原则整合到一个统一且自动化的工作流中。这一工作流是可靠 MLOps 系统的核心，将一系列手动且易错的任务转变为可重复、可审计的过程。

你可以将机器学习流水线看作是模型的自动化生产线。它的一端接收数据和代码等原材料，另一端产出经过验证、可随时部署的模型。流水线中的每个步骤都是一个独立的自动化任务，并将其输出（称为产物，artifact）传递给下一步。

基础流水线的各个阶段

典型的机器学习 (machine learning)流水线实现了机器学习生命周期中核心阶段的自动化。虽然流水线可能变得非常复杂，但一个基础流水线通常包含以下自动化阶段：

数据摄取： 这是入口点。流水线会自动拉取所需的数据。数据可能来自数据仓库、云存储桶或特征商店。该步骤通常由新数据的出现来触发。
数据验证： 数据摄取后必须进行验证。流水线会自动检查数据质量。数据是否符合预期模式？是否存在缺失值或异常值？这一步可以防止低质量数据破坏整个训练过程。如果验证失败，流水线可以停止并发送警报。
数据准备： 这一阶段也称为特征工程，它会自动将验证后的原始数据转换为适合模型的格式。这包括数值特征缩放、类别变量编码以及从现有特征创建新特征等任务。输出是可用于训练的处理后数据集。
模型训练： 流水线使用准备好的数据运行训练脚本。该脚本训练模型并输出模型文件，这是一种二进制产物。同样地，流水线还会记录训练运行中使用的所有参数 (parameter)和环境详情，以确保可复现性。
模型评估： 训练完成后，必须对模型进行评估。流水线会自动在预留的测试集上测试新模型的性能。它会计算预定义的指标，如准确率、精确率或均方误差。结果会与基准进行比较，基准可以是当前部署的模型或设定的性能阈值（例如：准确率 > 0.85）。
模型注册： 如果模型通过了评估阶段，它就会被注册。这一步涉及对模型产物进行版本控制，并将其存储在称为模型注册表（Model Registry）的中心位置。注册表还会存储元数据，例如训练指标、所用数据集的 ID 以及指向生成该模型的代码版本的链接。注册的模型即为待部署的候选模型。

基础自动化机器学习流水线图示，展示了从数据摄取到模型注册的过程。

流水线如何触发

自动化流水线并非手动运行。它由特定事件激活，确保系统能够对变化做出动态响应。常见的触发方式包括：

基于代码的触发 (CI)： 当数据科学家或工程师将新代码推送到 Git 仓库时，CI 系统（如 GitHub Actions）可以自动触发流水线运行。该流水线通常运行一系列快速测试来验证代码完整性，并可能执行一次简短的训练运行以确保没有功能损坏。
基于数据的触发 (CT)： 在许多应用中，随着新数据的出现，模型需要重新训练。流水线可以配置为当存储中收集到一定量的新数据时自动启动。这就是持续训练 (CT) 的核心。
定时触发： 有时，无论是否有新数据，你都需要定期重新训练模型，这可能是为了应对缓慢变化的趋势或模型陈旧问题。流水线可以设置为按固定间隔运行，例如每天、每周或每月。

通过结合这些组件和触发器，你创建的系统将不再是一个静态的一次性脚本。相反，它变成了一个动态的、由事件驱动的过程，能够可靠且重复地生产高质量模型。这种流水线是推动 MLOps 的引擎，弥合了模型开发与运营卓越性之间的鸿沟。该流水线的输出——即注册表中经过版本化和验证的模型——将成为下一阶段“持续交付”的输入。

参考文献

Introducing MLOps, Mark Treveil, Nicolas Omont, Clément Stenac, Kenji Lefevre, Du Phan, Joachim Zentici, Adrien Lavoillotte, Makoto Miyazaki, Lynn Heidmann, 2020 (O'Reilly Media) - 一本介绍 MLOps 原理的书，涵盖机器学习管道、持续集成、持续交付和持续训练。
Vertex AI Pipelines overview, Google Cloud Documentation, 2024 (Google Cloud) - Google Cloud Vertex AI Pipelines 的官方文档，展示了生产级 ML 管道平台如何实现所讨论的阶段和概念。
Hidden Technical Debt in Machine Learning Systems, D. Sculley, Gary Holt, Daniel Golovin, Eugene Davydov, Todd Phillips, Dietmar Ebner, Vinay Chaudhary, Michael Young, Jean-François Crespo, Dan Dennison, 2015 Advances in Neural Information Processing Systems 28 (Curran Associates, Inc.) - 一篇开创性论文，指出了部署和维护机器学习系统中的挑战和成本，为自动化管道等 MLOps 实践提供了基本原理。