模型监控基础

部署后的模型运行在动态的生产环境中。如果缺乏监管，它们的表现可能会在无形中下降，因此持续监督非常必要。模型监控是指持续跟踪和评估模型在生产环境中的运行健康状况及预测质量的实践。它是一个必要的预警系统，当模型不再能反映其运行环境时，它会发出提醒，从而保护应用程序和业务免受错误预测带来的后果。

在考虑模型的预测是否准确之前，必须首先确认承载模型的服务运行正常。这被称为运维监控，它与监控任何标准软件应用程序有许多共同点。其目标是回答有关服务可用性和响应能力的这类基本但重要的问题。

应该跟踪的主要指标包括：

已部署模型的预测延迟。15:00 左右的峰值超过了预设的告警阈值，表明出现了需要调查的性能问题。

从运维角度看，一个模型可能表现得非常健康，响应迅速且没有错误，但它提供的预测结果却可能越来越不准确。这是机器学习 (machine learning)系统面临的特有挑战。监控预测质量涉及跟踪模型的预测与真实结果的契合程度。这通常受到两个潜在问题的困扰：数据漂移和概念漂移。

数据漂移（也称为输入漂移）发生在生产环境中输入给模型的数据统计特性与训练数据相比发生变化时。模型从训练数据中学习模式，因此当输入数据不再像训练数据时，学到的模式可能不再适用，预测准确性就会受损。

例如，假设一个贷款审批模型是根据经济稳定时期的数据训练的。如果发生经济衰退，申请人的数据（收入水平、就业状态、信用查询次数）将发生显著变化。模型不熟悉这些新模式，表现很可能会变差。

你可以通过比较在线预测请求中的特征分布与训练数据集中的分布来检测数据漂移。

训练数据与在线生产数据之间年龄分布偏移的对比。模型现在面对的是更年轻的群体，这就是数据漂移的一个例子。

概念漂移是一个更隐蔽的问题。在这种情况下，输入数据的统计特性可能保持不变，但输入与输出目标之间的关系发生了变化。数据的含义发生了偏移。

以垃圾邮件检测模型为例。垃圾邮件发送者不断发明新策略。一年前包含某些关键词的邮件可能是正常的，但现在可能是一次新钓鱼攻击的强烈信号。输入特征（邮件中的单词）没有改变，但它们与“垃圾邮件”这一含义的关系已经改变。概念漂移是指由于环境变化导致模型学到的规则已经过时。

为了监控这些问题，你需要跟踪一套不同的指标：

输入特征分布： 如数据漂移所示，跟踪输入特征的统计数据（均值、中位数、方差）和直方图，并将它们与训练数据的基准进行比较。
预测输出分布： 监控模型预测结果的分布。如果一个通常标记 (token) 0.5% 交易的欺诈检测模型突然开始标记 10%，这是一个强烈的信号，表明出现了异常。
模型特定指标： 如果你能获取模型预测结果的真实结果（也称为“地面真值”），你就可以计算直接的性能指标，如准确率、精确率或平均绝对误差。这通常需要一个反馈循环，从应用程序中收集实际结果（例如用户将邮件标记为垃圾邮件，或几个月后贷款违约），并将其与模型的预测结果结合起来。

监控不是一种被动的活动。当监控器检测到问题时，它应该触发一个工作流。这建立了一个持续的循环，使模型能够随着时间的推移保持有效性。

MLOps 监控循环图。检测到问题后会触发诊断、重训和重新部署的过程，以维持模型性能。

这个循环将监控直接连接回机器学习 (machine learning)生命周期的开发和部署阶段，体现了 MLOps 的核心原则。性能下降不是失败，而是一个信号，表明系统正在按预期工作，现在是模型进行调整的时候了。

这部分内容有帮助吗？

参考文献

Introducing MLOps: How to go from Model to Money, Mark Treveil, Nicolas Omont, Aurélien Géron, Hannes Hapke, Denis Rothman, Stephen Mellor, and Noah Gift, 2022 (O'Reilly Media) - 涵盖MLOps完整生命周期的实用指南，包括模型部署、监控和机器学习持续集成/交付的详细章节。
A Survey on Concept Drift Adaptation in Machine Learning, J. Lu, A. Liu, F. Chen, P. Wang, and J. Ma, 2019 ACM Computing Surveys (CSUR), Vol. 52 (Association for Computing Machinery) DOI: 10.1145/3343160 - 此综述提供了检测和适应概念漂移的各种方法概览，该问题与在变化环境中保持模型性能直接相关。
Machine Learning Engineering, Andriy Burkov, 2020 (True Positive Inc.) - 一本关于将机器学习模型投入生产的实用且全面的指南，涵盖部署、监控和维护等主题。