趋近智
机器学习 (machine learning)流水线将持续集成 (CI)、持续交付 (CD) 和持续训练 (CT) 等自动化原则整合到一个统一且自动化的工作流中。这一工作流是可靠 MLOps 系统的核心,将一系列手动且易错的任务转变为可重复、可审计的过程。
你可以将机器学习流水线看作是模型的自动化生产线。它的一端接收数据和代码等原材料,另一端产出经过验证、可随时部署的模型。流水线中的每个步骤都是一个独立的自动化任务,并将其输出(称为 产物,artifact)传递给下一步。
典型的机器学习 (machine learning)流水线实现了机器学习生命周期中核心阶段的自动化。虽然流水线可能变得非常复杂,但一个基础流水线通常包含以下自动化阶段:
数据摄取: 这是入口点。流水线会自动拉取所需的数据。数据可能来自数据仓库、云存储桶或特征商店。该步骤通常由新数据的出现来触发。
数据验证: 数据摄取后必须进行验证。流水线会自动检查数据质量。数据是否符合预期模式?是否存在缺失值或异常值?这一步可以防止低质量数据破坏整个训练过程。如果验证失败,流水线可以停止并发送警报。
数据准备: 这一阶段也称为特征工程,它会自动将验证后的原始数据转换为适合模型的格式。这包括数值特征缩放、类别变量编码以及从现有特征创建新特征等任务。输出是可用于训练的处理后数据集。
模型训练: 流水线使用准备好的数据运行训练脚本。该脚本训练模型并输出模型文件,这是一种二进制产物。同样地,流水线还会记录训练运行中使用的所有参数 (parameter)和环境详情,以确保可复现性。
模型评估: 训练完成后,必须对模型进行评估。流水线会自动在预留的测试集上测试新模型的性能。它会计算预定义的指标,如准确率、精确率或均方误差。结果会与基准进行比较,基准可以是当前部署的模型或设定的性能阈值(例如:准确率 > 0.85)。
模型注册: 如果模型通过了评估阶段,它就会被注册。这一步涉及对模型产物进行版本控制,并将其存储在称为模型注册表(Model Registry)的中心位置。注册表还会存储元数据,例如训练指标、所用数据集的 ID 以及指向生成该模型的代码版本的链接。注册的模型即为待部署的候选模型。
基础自动化机器学习流水线图示,展示了从数据摄取到模型注册的过程。
自动化流水线并非手动运行。它由特定事件激活,确保系统能够对变化做出动态响应。常见的触发方式包括:
基于代码的触发 (CI): 当数据科学家或工程师将新代码推送到 Git 仓库时,CI 系统(如 GitHub Actions)可以自动触发流水线运行。该流水线通常运行一系列快速测试来验证代码完整性,并可能执行一次简短的训练运行以确保没有功能损坏。
基于数据的触发 (CT): 在许多应用中,随着新数据的出现,模型需要重新训练。流水线可以配置为当存储中收集到一定量的新数据时自动启动。这就是持续训练 (CT) 的核心。
定时触发: 有时,无论是否有新数据,你都需要定期重新训练模型,这可能是为了应对缓慢变化的趋势或模型陈旧问题。流水线可以设置为按固定间隔运行,例如每天、每周或每月。
通过结合这些组件和触发器,你创建的系统将不再是一个静态的一次性脚本。相反,它变成了一个动态的、由事件驱动的过程,能够可靠且重复地生产高质量模型。这种流水线是推动 MLOps 的引擎,弥合了模型开发与运营卓越性之间的鸿沟。该流水线的输出——即注册表中经过版本化和验证的模型——将成为下一阶段“持续交付”的输入。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•