部署机器学习模型到实际运行环境中,与传统软件系统相比,会带来一套不同的运维要求。模型会与不断变化的数据分布交互,其性能可能因数据漂移或概念漂移等因素而随时间悄无声息地下降。有效的监控不仅对于维持性能非常必要,而且对于保障可靠性和管理运维风险也十分重要。本章将为理解和实施生产环境下的机器学习监控系统打下基础。我们将首先明确在模型部署后追踪其运行状态所面临的特有难题。然后,我们将界定监控所需的完整范围,这包括输入数据、模型预测、性能指标以及支撑基础设施。你将学会如何专门针对机器学习应用来制定有意义的服务水平目标(SLO)。最后,我们将考察用于构建这些监控系统的常见架构模式,并讨论监控如何融入更广泛的MLOps生命周期。到本章结束时,你将对构建有效的机器学习监控方案所需的核心思想和考量因素有一个清晰的认识。