趋近智
将机器学习 (machine learning)模型部署到生产环境是一个里程碑,但这远非最后一步。部署后的模型不是一段静态的软件,它是一个与多变环境交互的动态系统。其性能会随着时间的推移而下降。在部署后系统地跟踪模型的表现和性能的做法被称为监控。这一流程能够让你及时发现模型是否已偏离预期目标。
模型上线后,它会开始接触从未见过的数据。随着时间的推移,这些新数据的性质可能与模型训练时的数据产生偏差,导致预测准确性下降。这种性能衰减通常有两个主要原因:数据偏移(Data Drift)和概念偏移(Concept Drift)。
数据偏移发生在输入特征的统计属性随时间变化时。模型本身可能仍然有效,但它接收到的数据不再符合其在训练期间学习到的模式。假设有一个利用房屋面积和卧室数量等特征来预测房地产价格的模型。如果突如其来的经济转变导致利率飙升,房价分布和买家行为将发生剧烈变化。该模型是在不同的经济环境下训练的,因此很难做出准确的预测。此时,底层数据已经发生了“偏移”。
训练期间的特征分布与生产环境中的分布对比。这种变化表明存在数据偏移,可能会降低模型性能。
概念偏移是一个更隐蔽但同样有害的问题。当输入特征与目标变量之间的关系发生变化时,就会发生这种情况。输入的统计属性可能保持不变,但它们所代表的含义已经改变。
例如,一个预测客户流失的模型可能会学到:缺乏支持工单是客户满意、不会流失的标志。然而,如果公司推出了一个非常高效的自助服务帮助门户,此时缺乏支持工单意味着客户在成功地自行解决问题,而底层的满意度或忠诚度(即满意客户的“概念”)与流失之间的关系并未改变。但“支持工单数量”这一特征的含义已经演变。
在很多情况下,模型会同时受到数据偏移和概念偏移的影响。这种性能的逐渐衰退通常被称为模型陈旧。监控是我们检测这一现象的主要手段。
有效的监控涉及跟踪两类不同但相关的指标:系统的运行状况和模型预测的质量。
这些指标关注承载模型的软件应用的健康状况和稳定性。它们与监控传统 Web 服务时关注的指标类似。
这些指标衡量机器学习 (machine learning)模型输出的质量和可靠性。它们是 MLOps 特有的,对于维持对系统的信任非常关键。
预测准确率: 这是最直接的性能衡量方式。它涉及将模型的预测结果与实际结果(“地面真值”)进行比较。对于分类模型,你可能会跟踪准确率、精确率和召回率。对于回归模型,你会监控平均绝对误差 (MAE) 或均方根误差 (RMSE) 等指标。获取地面真值有时会有延迟,这使得其他代理指标变得很有意义。
数据和预测分布: 当无法立即获得地面真值时,可以通过跟踪输入特征和模型输出预测的统计分布来监控偏移。例如,如果你的模型通常只有 1% 的时间预测为“欺诈”,却突然开始在 50% 的时间里预测为“欺诈”,这是一个明显的异常信号,即使你还不知道真实的结果。
监控仪表板显示模型准确率随时间下降。当性能跌破预设阈值时会触发告警,提示需要进行调查。
监控系统建立在日志记录、可视化和告警的基础之上。
延迟 > 500ms 持续超过五分钟,或 准确率 < 90%,则触发告警。监控完善了初始开发周期的闭环。它提供的发现不仅用于修复故障系统,还是模型改进的主要触发点。当监控检测到明显的偏移或性能下降时,这清楚地表明当前模型已过时。这些信息直接进入生命周期的下一个也是最后一个阶段:创建反馈回路以重新训练并部署更新后的模型。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•