在识别出性能下降和漂移之后,接下来合乎情理的步骤是更新模型。手动再训练和部署过程通常不足以维护生产环境中可靠的机器学习系统,因为它们速度慢且可能出错。本章侧重于自动化模型更新周期,以确保及时安全地响应不断变化的情况。您将学习如何:设计有效的触发器(基于阈值或事件驱动),以便在满足特定条件(例如漂移程度 $d > \theta$ 或性能指标 $m < \phi$)时自动启动再训练流程。比较并选择合适的再训练数据策略,包括使用滑动窗口、增量更新或完整历史数据集。构建自动化验证步骤,以评估新训练的候选模型在影响用户之前的质量和安全性。区分批量再训练方法和持续在线学习系统,了解相关权衡。实施安全的部署模式,例如金丝雀发布和影子测试,以最大程度降低引入新模型版本所带来的风险。开发自动化回滚机制,以便在新部署的模型表现不佳或导致问题时,快速恢复到之前的稳定模型版本。