数据切片与分段的性能监控

聚合的性能指标虽然必要，但往往不能完整呈现模型在生产环境中的表现。模型可能整体准确率、精确度或召回率很高，但在特定数据子群组上表现显著不足。这些潜在问题可能带来严重后果，从损害特定人口群体对用户的信任，到导致被忽视的市场分段的巨大业务损失。因此，在数据切片和分段上监控性能是一种重要的诊断方法，用以了解生产模型的细致行为。

通过根据特定特征值或属性划分生产数据，您可以独立计算每个子集的性能指标。这让您能够不只看平均水平，而是找出模型表现出色或不佳的方面。

为什么要监控分段性能？

评估特定数据切片上的性能具有以下益处：

识别潜在偏见： 模型可能无意中学习甚至放大训练数据中存在的社会偏见。通过监控敏感属性（如人口统计群体，若符合道德和法律规定）或代理特征上的性能，有助于识别模型对某些子群组表现不佳或不公平的公平性问题。这是构建更公平系统的重要前提，我们将在公平性监控部分做进一步讨论。
明确业务影响： 整体性能可能可以接受，但如果模型在负责大部分收入或用户互动的小分段上出现问题，其业务影响可能是不成比例的。分段分析会突出这些高风险方面。例如，一个电商推荐引擎可能整体表现良好，但对特定移动平台上的用户表现不佳，从而导致该群体销售额损失。
诊断漂移影响： 数据或概念漂移通常会比其他部分更明显地影响数据分布的特定部分。一个预测配送时间的模型，其性能可能仅在交通模式不同的新扩展地理区域的配送中出现下降。分段监控有助于将漂移的影响隔离到特定子群体。
了解边缘情况表现： 模型经常难以应对稀有或异常输入（边缘情况）。通过定义与这些边缘情况对应的分段（例如，购买频率非常高的用户，超出典型范围的传感器读数），您可以具体追踪模型处理这些情况的表现如何。
定向调试与改进： 当整体性能下降时，分段分析可作为一种强大的调试工具。如果您发现性能下降集中在特定分段（例如，通过新营销渠道获得的用户），这会将您的调查引向与该分段特性相关的数据质量问题、特征处理问题或模型局限性。这使得再训练数据选择或模型调整更具针对性。

定义相关分段

选择适当的分段取决于应用场景，并且通常需要领域专业知识。分段可以根据以下因素定义：

分类特征： 根据 user_country（用户国家）、device_type（设备类型）、product_category（产品类别）、customer_tier（客户等级）或 service_plan（服务计划）等属性对数据进行切片。这些通常是最直接定义和解释的分段。
数值特征： 将连续特征离散化为有意义的区间或范围。示例包括 age_group（年龄组，例如 18-25、26-35）、transaction_amount_bracket（交易金额区间，例如 < $10、$ 10- $100、>$ 100）或 sensor_reading_level（传感器读数水平，低、中、高）。区间的选择很重要，应反映数据或业务场景中的有意义区分。
元数据： 使用与预测请求相关联但并非必需用作模型特征的信息，例如 data_source（数据源）、time_of_day（一天中的时间）、day_of_week（一周中的天）或 API_version（API 版本）。
模型输出： 根据模型自身的行为进行分段，例如置信度分数低的预测或属于特定类别的预测。监控低置信度预测的性能可以显现不确定性校准问题。
组合： 通过结合多个特征（例如，user_country 和 device_type）来创建更细致的分段。请注意，这可能导致分段数量很多，其中一些可能只有很少的数据点。

首先从对应重要业务部门或已知数据变化来源的分段开始。持续监控这些分段，并根据发现改进您的分段策略。

监控系统中的实施

实施分段性能监控需要将分段逻辑集成到您的 MLOps 流水线中：

日志记录： 确保您的预测日志不仅捕获模型输入、输出和真实标签（如果可用），还捕获将每个预测分配到其相应分段所需的原始特征值或元数据。
处理： 您的监控系统需要处理这些日志，按分段对预测进行分组，并在特定时间窗口（例如每小时、每天）内为每个组计算相关性能指标（例如精确度、召回率、F1 分数、平均绝对误差、均方根误差）。
存储： 时序数据库非常适合存储分段指标。每个指标（例如 precision）都可以与指示分段的标签或标记 (token)（例如 country=US、device=iOS）一起存储。
可视化与告警： 使用仪表盘来可视化每个分段的性能趋势。设置告警，以便在特定、重要分段的性能下降到预定义阈值以下时触发通知，即使整体性能保持稳定。

现代机器学习 (machine learning)监控平台通常提供内置功能，用于自动定义切片和追踪指标，从而简化此过程。

分段性能可视化

可视化对于理解分段性能必不可少。柱状图可以有效比较单一时间点或一段时间内不同分段的指标。

欺诈检测模型的 F1 分数表现，按国家分段。墨西哥的分数显著更低，表明存在需要调查的潜在问题。

显示不同分段指标如何演变的时序图也对于发现逐渐下降或随时间变化的影响很有参考价值。

解释与行动

识别表现不佳的分段是第一步。接下来是诊断和采取行动：

调查数据： 检查表现不佳分段特有的输入数据分布、质量和特征值。是否存在仅影响此切片的数据漂移或数据质量问题增加的情况？
分析错误： 查看分段内的特定预测错误。是否存在共同模式？模型可解释性技术（稍后会介绍）可以帮助理解模型为何在这些特定实例上出现问题。
审查模型训练： 该分段在训练数据中是否得到充分代表？模型架构在捕获该分段特有模式方面是否存在局限性？
采取纠正措施： 根据诊断，行动可能包括：
- 为表现不佳的分段收集更具代表性的数据。
- 应用有针对性的数据清洗或预处理步骤。
- 调整特征工程。
- 再训练模型，可能结合上采样或整合分段特定特征等技术。
- 如果性能差异大且持续存在，考虑为有问题分段定制单独的模型。

重要注意事项

统计显著性： 在数据点非常少的分段上计算的指标可能存在噪声且不可靠。在解释每个分段的性能时，务必考虑其样本量（支持度）。必要时应用统计检验或置信区间。
可扩展性： 监控大量分段，特别是组合分段，可能变得计算成本高昂。根据业务影响和潜在风险确定分段的优先级。在您的监控流水线中采用高效的聚合技术。
自动化： 手动定义和追踪分段既繁琐又容易出错。在您的 MLOps 工具中，尽可能自动化分段定义以及指标的计算和可视化。

分段性能监控将您的监控从简单的健康检查转变为强大的诊断工具。它使您能够主动识别潜在问题，理解模型在不同数据子群体中的表现，并采取有针对性的行动，以提高在生产环境中的公平性、可靠性和整体效果。

参考文献

Designing Machine Learning Systems: An Iterative Process for Production-Ready Applications, Chip Huyen, 2022 (O'Reilly Media) - 本书探讨了部署和维护机器学习模型的实践，包括生产监控和诊断的详细方面。
Fairness and Machine Learning: Practical Techniques for Building Trustworthy Models, Solon Barocas, Moritz Hardt, Arvind Narayanan, 2023 (MIT Press) - 这本在线教材全面介绍了机器学习中的公平性，阐释了如何通过分段性能评估等方法识别和处理偏见。
Model Cards for Model Reporting, Margaret Mitchell, Simone Wu, Andrew Zaldivar, Parker Barnes, Lucy Vasserman, Ben Hutchinson, Elena Spitzer, Inioluwa Deborah Raji, Timnit Gebru, 2019 Proceedings of the Conference on Fairness, Accountability, and Transparency (FAT* '19) (Association for Computing Machinery) DOI: 10.1145/3287560.3287596 - 本文介绍了模型卡片，这是一种结构化报告框架，包含在各种数据切片上评估模型性能，以确保透明度和问责制，尤其是在公平性方面。