监控范围：数据、预测、性能、基础设施

对机器学习 (machine learning)系统进行有效的监控，远超传统软件的常见检查。因为模型本质上是数据驱动的，它们的行为和有效性与其在生产环境中接收的输入数据的特性紧密关联。仅仅确保预测服务有响应，并不能保证模型正在提供价值或正常运行。因此，全面的监控策略必须涵盖系统的多个方面。我们将这些方面归为四个重要部分：输入数据、模型预测、模型性能和基础设施。

输入数据监控

监控馈送给生产模型的输入数据，可以说是最底层的工作。模型是根据具有特定统计属性和分布的数据进行训练的。当生产数据与训练数据分布显著偏离时，这种被称为数据漂移的现象，常会导致模型性能下降，有时甚至会彻底崩溃。监控输入数据有助于在这些变化显著影响结果之前，进行早期发现。

需要监控的重要方面包括：

统计属性： 追踪每个特征的汇总统计量，如均值、中位数、标准差、最小值、最大值和基数（针对类别特征）。与训练数据基准相比，这些统计量的显著变化可能表明存在漂移。
分布： 监控每个特征的经验分布。方法包括简单的直方图比较，以及更精密的统计距离指标（例如科尔莫戈罗夫-斯米尔诺夫、总体稳定性指标）。随着时间推移可视化分布通常很有帮助。第2章详细介绍检测这些分布变化的高级方法，包括多元方法。
数据质量和模式： 根据预期模式验证传入数据。检查缺失值、意外数据类型、超出预期范围的值，或类别特征水平的变化。数据质量问题会直接影响模型稳定性及预测质量。
特征关系： 在某些情况下，监控特征间的相关性或互信息可以显露单独特征监控可能会遗漏的细微变化。

这个流程图显示了数据监控组件（验证、统计计算）如何在数据到达模型之前进行整合，并将结果记录到中央监控系统。

监控输入数据是一个重要的预警系统。检测到数据漂移或质量问题，可以让你调查潜在原因、触发警报，甚至在模型性能指标显示显著下降之前启动自动化再训练流程。

模型预测监控

输入数据监控关注输入到模型中的内容，而预测监控则检查其输出。分析模型预测的分布和特性，提供了另一种有价值、通常更快的潜在问题信号，尤其当真实标签延迟或不可用时。

请考虑监控以下方面：

预测分布： 追踪模型输出的分布。对于分类模型，这可能是预测类别标签的分布或预测概率的分布。对于回归模型，则监控预测值的分布（均值、方差、分位数）。输出分布的突然变化，即使输入分布看起来稳定，也可能表明概念漂移（输入与输出之间关系的变化）或模型过时。
预测置信度： 如果你的模型输出置信度分数或概率，请监控它们的分布。请求中预测置信度的普遍下降可能表明模型遇到的数据让它不太确定，这可能是由于遇到了新模式或分布外样本。
预测异常： 寻找不寻常的预测模式，例如针对稀有类别的预测突然激增，或预测值超出历史观察范围。

预测监控在比仅仅依赖性能指标更早地发现概念漂移方面特别有用，因为特征与目标变量之间的关系可能在总体准确性或错误率受到显著影响之前就已经改变。

模型性能监控

最终，目标是模型在其预期任务上表现良好。性能监控直接追踪模型实现情况，通常通过将模型预测与真实标签进行比较。然而，在实时生产系统中获取真实数据通常具有挑战性。

性能监控的考虑因素包括：

指标选择： 选择适用于特定机器学习 (machine learning)任务和业务目标的指标。这超出了简单的准确性，包括分类的精确率、召回率、F1分数、AUC，或回归的均方根误差、平均绝对误差、R平方。通常，需要多个指标才能获得全面情况。第3章详细讨论如何选择合适的指标。
真实数据延迟： 考虑获取真实标签时的延迟。监控系统需要正确关联预测与其对应的标签，即使它们在数分钟、数小时或数天后才到达。
代理指标： 当真实数据显著延迟或不可用时，识别并监控与模型性能相关的代理指标。示例包括用户参与信号（点击率、转化率）、反馈分数或下游系统的输出。
分段： 不仅要全局分析性能，还要针对重要数据段或切片（例如用户画像、物品类别、时间段）进行分析。特定数据段的糟糕性能可能被总体平均值所掩盖。第3章涵盖分段分析和公平性监控。
业务KPI： 在可能的情况下，将技术模型性能指标与实际业务绩效指标（KPI）关联起来。模型准确性下降只有在对收入、成本节约或客户满意度等业务成果产生负面影响时才值得关注。

追踪F1分数等性能指标随时间的变化，有助于可视化趋势并确定性能何时低于可接受的阈值。

性能监控提供了模型是否达到其目标的最终评估。它常是再训练、回滚或调查等行动的主要触发因素。

基础设施监控

最后，机器学习 (machine learning)模型并非孤立运行。它运行在基础设施上，通常是更大应用程序或服务的一部分。监控这底层基础设施的健康状况和性能是必不可少的，因为基础设施问题会直接影响模型的可用性和感知性能。

标准的基础设施监控实践在此适用，关注于以下方面：

延迟： 追踪预测服务响应请求的耗时（P50、P90、P99延迟）。高延迟会降低用户体验或导致下游系统超时。
吞吐量 (throughput)： 监控服务每单位时间处理的请求数量（例如每秒查询次数，QPS）。意外下降或激增可能表明存在问题。
错误率： 追踪服务器端错误率（例如HTTP 5xx错误）。错误率增加常指向错误、资源耗尽或基础设施故障。
资源利用率： 监控模型服务实例的CPU、内存、GPU（如适用）、磁盘I/O和网络使用情况。过度使用会导致性能下降和不稳定，而未充分使用则可能表明资源分配效率低下。

虽然与以模型为中心的监控不同，但基础设施的健康状况与模型性能交织在一起。例如，复杂输入数据的突然增加可能导致CPU飙升（一个基础设施问题），进而导致延迟增加，这会被认为是糟糕的模型性能。反之，有缺陷的模型部署可能导致过高的错误率。因此，将基础设施指标与模型行为和性能指标关联起来，可以提供系统运行健康状况的整体视图。

总之，机器学习模型监控策略需要全面覆盖。通过追踪输入数据特性、分析预测行为、衡量实际模型性能以及确保基础设施稳定，您将获得必要的可见性，以管理在动态生产环境中运行的机器学习系统的复杂性。每个方面都提供独特的信号，它们共同形成一个能够早期发现问题、诊断根本原因并实现对已部署模型主动管理的系统。

参考文献

Designing Machine Learning Systems: An Iterative Process for Production-Ready ML Applications, Chip Huyen, 2022 (O'Reilly Media) - 本书涵盖生产中机器学习系统的生命周期，包括关于数据、模型和基础设施监控的重要章节，解释了为什么ML监控不同于传统软件。
Monitoring Machine Learning Models in Production: A Survey, Sourabh Kumar, S. S. Priyadharshini, Shrawan Kumar, 2023 SN Computer Science, Vol. 4 (Springer Science and Business Media LLC) DOI: 10.1007/s42979-023-01777-4 - 一篇近期学术综述论文，直接讨论了生产中ML模型监控的范围，涵盖数据漂移、概念漂移、性能指标和系统健康。
Practical MLOps: Operationalizing Machine Learning Models, Mark Treveil, Nicolas Omont, Olivier Grisel, Aurélien Géron, Alexey Grigorev, Andy McMahon, Michael E. Driscoll, Hannes Hapke, 2022 (O'Reilly Media) - 本书提供了构建和运行ML系统的实用指导，其中包含为内容中讨论的各个方面设计监控策略的章节。