趋近智
部署后的模型运行在动态的生产环境中。如果缺乏监管,它们的表现可能会在无形中下降,因此持续监督非常必要。模型监控是指持续跟踪和评估模型在生产环境中的运行健康状况及预测质量的实践。它是一个必要的预警系统,当模型不再能反映其运行环境时,它会发出提醒,从而保护应用程序和业务免受错误预测带来的后果。
在考虑模型的预测是否准确之前,必须首先确认承载模型的服务运行正常。这被称为运维监控,它与监控任何标准软件应用程序有许多共同点。其目标是回答有关服务可用性和响应能力的这类基本但重要的问题。
应该跟踪的主要指标包括:
500 内部服务器错误),这些错误指向代码中的漏洞或基础设施故障。已部署模型的预测延迟。15:00 左右的峰值超过了预设的告警阈值,表明出现了需要调查的性能问题。
从运维角度看,一个模型可能表现得非常健康,响应迅速且没有错误,但它提供的预测结果却可能越来越不准确。这是机器学习 (machine learning)系统面临的特有挑战。监控预测质量涉及跟踪模型的预测与真实结果的契合程度。这通常受到两个潜在问题的困扰:数据漂移和概念漂移。
数据漂移(也称为输入漂移)发生在生产环境中输入给模型的数据统计特性与训练数据相比发生变化时。模型从训练数据中学习模式,因此当输入数据不再像训练数据时,学到的模式可能不再适用,预测准确性就会受损。
例如,假设一个贷款审批模型是根据经济稳定时期的数据训练的。如果发生经济衰退,申请人的数据(收入水平、就业状态、信用查询次数)将发生显著变化。模型不熟悉这些新模式,表现很可能会变差。
你可以通过比较在线预测请求中的特征分布与训练数据集中的分布来检测数据漂移。
训练数据与在线生产数据之间年龄分布偏移的对比。模型现在面对的是更年轻的群体,这就是数据漂移的一个例子。
概念漂移是一个更隐蔽的问题。在这种情况下,输入数据的统计特性可能保持不变,但输入与输出目标之间的关系发生了变化。数据的含义发生了偏移。
以垃圾邮件检测模型为例。垃圾邮件发送者不断发明新策略。一年前包含某些关键词的邮件可能是正常的,但现在可能是一次新钓鱼攻击的强烈信号。输入特征(邮件中的单词)没有改变,但它们与“垃圾邮件”这一含义的关系已经改变。概念漂移是指由于环境变化导致模型学到的规则已经过时。
为了监控这些问题,你需要跟踪一套不同的指标:
监控不是一种被动的活动。当监控器检测到问题时,它应该触发一个工作流。这建立了一个持续的循环,使模型能够随着时间的推移保持有效性。
MLOps 监控循环图。检测到问题后会触发诊断、重训和重新部署的过程,以维持模型性能。
这个循环将监控直接连接回机器学习 (machine learning)生命周期的开发和部署阶段,体现了 MLOps 的核心原则。性能下降不是失败,而是一个信号,表明系统正在按预期工作,现在是模型进行调整的时候了。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•