趋近智
持续集成 (CI) 和持续交付 (CD) 是为自动化软件工作流打下良好基础的实践方式。然而,这些实践并不能完全解决机器学习 (machine learning)系统特有的挑战。与传统软件不同,机器学习模型的表现并非一成不变;相反,随着所接触数据的变化,其性能可能会随时间下降。
持续训练 (CT) 是自动重新训练机器学习模型以适应这些变化的流程。它完成了 MLOps 生命周期的闭环,确保模型在初始部署后的很长一段时间内仍能保持准确性和有效性。可以将其理解为对抗模型陈旧化的机制。模型陈旧化是指模型因为不再反映环境的当前状态,导致预测能力下降的情况。
推行 CT 的主要驱动因素是一种被称为模型漂移的现象。当模型在生产环境中接收到的数据统计特性与训练数据发生偏离时,就会产生漂移。漂移主要有两种形式:
如果没有 CT,部署的模型就是一个价值逐渐流失的静态资产。有了 CT,它就变成了一个可以学习和适应的动态系统。
CT 流水线是一个自动化的工作流,负责重新训练、评估并准备新模型以供部署。虽然具体细节可能有所不同,但核心阶段是一致的。
自动化持续训练闭环图示。监控生产环境的表现可以触发流水线,该流水线会重新训练、评估并注册新模型,随后将其发送到 CD 流水线进行部署。
让我们来看看这个过程中的主要步骤。
CT 流水线并不会一直运行。它需要一个信号来启动。常见的触发方式包括:
触发后,流水线会自动收集新数据,将其与相关的历史数据结合,并执行训练脚本。这一步与初始模型训练过程相同,但完全由程序自动完成。其目标是生成一个从最新可用信息中学习到的新候选模型。
这是一个把控质量的关口。仅仅重新训练模型并不能保证它会表现得更好。必须将新模型与当前部署的模型进行详细对比。这种评估通常使用两个模型都未接触过的预留测试数据集进行。
如果新模型没有表现出统计意义上的性能提升,流水线就会停止。将表现较差的模型推向生产环境可能比保留现有模型后果更严重。
如果新模型通过了验证,它会被赋予版本号并存储在模型登记表中。该登记表充当所有已训练模型的中心库。将模型存储在登记表中会生成一个确定的、带版本的产物,随后可由持续交付 (CD) 流水线接手。从这里开始,CD 系统负责包装模型并将其部署到生产环境,替换掉旧的、性能较低的版本。
通过将 CI、CT 和 CD 连接起来,你就创建了一个全自动化的系统,它不仅能验证代码,还能确保机器学习 (machine learning)模型在整个生命周期中不断适应并产生价值。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造