建立预测和模型更新的审计追踪

保持在生产环境中运行的机器学习 (machine learning)模型的透明度和问责制不仅仅是技术要求；它通常是业务和监管的必需。如本章前面所述，治理实践非常重要。其中一个重要组成部分是建立全面的审计追踪，细致地记录模型活动，涵盖了单个预测以及更广泛的模型管理操作。这些追踪提供了不可或缺的记录，用于调试、合规性检查、性能分析和安全审查。

审计追踪的重要性

可以将审计追踪看作是您机器学习 (machine learning)系统的详细飞行记录仪。没有它们，要理解模型行为异常的原因，证明合规性，或追溯已部署模型的血缘，将变得极其困难，甚至不可能。实施全面审计追踪的主要原因包括：

监管合规： 许多行业（金融、医疗保健）都有严格的法规要求自动化决策的可追溯性和可解释性。诸如GDPR之类的法规也赋予用户关于自动化决策的权利，因此需要日志来满足关于决策如何做出的请求。
调试和事件响应： 当模型生成不正确或有偏差的预测，或者预测服务失败时，详细的日志通常是诊断根本原因的首要信息来源。将特定有问题的预测追溯到其输入数据和模型版本对于故障排除来说是基础。
性能和行为分析： 审计日志，特别是预测日志，提供所需原始数据，以随时间监控模型性能，分析特定数据切片上的性能，并理解输入在生产环境中如何与输出关联。
安全监控： 日志可以帮助检测异常访问模式、潜在的数据泄露，或篡改模型或其预测的尝试。追踪谁做了什么以及何时做的，是标准安全实践。
可复现性和血缘： 模型更新的审计追踪创建模型随时间如何以及为何变化的可靠历史记录。这包括追踪用于再训练的数据、代码版本、验证结果和部署审批，支持可复现性工作。

审计单个预测

记录每一个预测请求和响应是基础。然而，考虑到数据的潜在数量和敏感性，需要仔细设计。

预测需要记录什么：

全面的预测日志条目理想情况下应捕获：

请求标识符： 每个预测请求的唯一ID，允许跨不同日志系统进行关联。
时间戳： 接收请求和生成预测的精确时间戳。这有助于测量延迟和事件顺序。
输入特征： 模型接收到的准确特征向量 (vector)。这对于调试和分析非常重要，但会带来隐私挑战（如下所述）。替代方案包括记录哈希特征、匿名数据，或仅记录非敏感特征的子集。
模型标识符： 提供预测服务的模型的具体名称和版本（例如，fraud-detection-svc:v3.1.4）。对于将输出与正确的模型构件关联，这是不可协商的。
预测输出： 模型的预测（例如，类别标签、回归值）以及任何相关的置信分数或概率。
可解释性数据（可选）： 对于重要的决策，您可能会记录特定预测的解释输出（如SHAP值或LIME解释），这有助于下游分析或合规请求。这增加了开销，因此通常是选择性地进行。
上下文 (context)元数据： 诸如调用的API端点、请求区域，以及如果相关且允许，可能是（假名化的）用户或会话标识符。

预测日志记录的实施考量：

性能影响： 预测请求路径中的同步日志记录可能引入延迟。实施异步日志记录，将日志消息发送到单独的进程或队列（如Kafka、RabbitMQ或云原生队列），以最大限度地减少对预测服务时间的影响。发送前缓冲日志也可以提高效率。
数据量： 高流量服务可以生成数TB的日志数据。使用结构化日志格式（如JSON）进行高效解析。采用日志轮转、压缩，如果完全日志记录不可行，请考虑采样策略（例如，仅记录一小部分请求，或详细记录错误/异常，但对成功的预测进行采样）。通常使用列式数据库或数据湖等存储方案。
隐私和安全： 记录包含个人身份信息（PII）或敏感数据的原始输入特征需要极其谨慎。实施数据最小化原则：仅记录必要的数据。如有需要，可采用假名化、匿名化或差分隐私等技术。通过严格的访问控制和加密来保护日志基础设施本身。

审计模型管理和生命周期事件

追踪模型本身的变更对于治理同样重要。

模型更新需要记录什么：

模型生命周期中的重要事件应记录在不可变的审计追踪中：

事件类型： 明确指定操作（例如，RETRAIN_START、RETRAIN_COMPLETE、VALIDATION_SUCCESS、DEPLOY_INITIATED、DEPLOY_FAILURE、ROLLBACK_EXECUTED、CONFIG_UPDATED）。
时间戳： 事件发生的时间。
模型标识符： 受事件影响的模型名称和版本。
触发机制： 启动事件的原因（例如，monitoring_alert_id:drift_high、user:jane.doe、scheduled_run:weekly_retrain）。
相关构件： 相关组件的链接或标识符：
- 数据：用于训练/验证的数据集版本或查询。
- 代码：训练/部署代码的Git提交哈希。
- 配置：使用的参数 (parameter)或配置文件的版本。
- 验证结果：来自部署前的验证步骤的重要指标。
执行者： 执行或启动了该操作的用户账户或服务主体。
结果： 事件状态（成功、失败）和任何相关的错误消息或输出。

生命周期日志记录的实施考量：

整合很重要： 生命周期事件的审计日志记录不应是事后补救。将其直接整合到您的MLOps工具中：
- CI/CD管道： 记录诸如代码检出、环境设置、训练执行、验证结果和部署命令等步骤。
- 模型注册表： 诸如MLflow、Vertex AI Model Registry或SageMaker Model Registry之类的工具通常具有API或Webhooks，可用于自动记录模型注册、阶段转换（例如，从暂存到生产）和元数据更新等事件。
- 编排工具： 工作流编排器（Airflow、Kubeflow Pipelines、Prefect）管理多步骤过程；确保每个重要任务将其执行状态、输入和输出记录到中央审计追踪中。
不可变性： 确保审计日志不易被更改或删除。尽可能使用一次写入存储或具有内置不可变性功能的系统。

审计数据的结构化、存储和访问

您如何结构化和存储审计日志直接影响其可用性。

格式： 使用结构化格式如JSON。这使得日志具有机器可读性，并且与纯文本字符串相比，查询和分析起来明显更容易。尽可能在不同日志类型中包含一致的字段（例如，timestamp、event_type、model_id）。
存储：
- 集中式日志系统： 诸如ELK Stack（Elasticsearch、Logstash、Kibana）、Splunk、Datadog Logs或Google Cloud Logging之类的平台，设计用于近实时地摄取、存储、搜索和可视化大量日志数据。它们对于操作监控和调试非常出色。
- 数据湖/数据仓库： 对于长期保留、复杂的分析查询以及与其他业务数据的整合，将处理后的日志存储在数据湖中（例如，AWS S3、Azure Data Lake Storage、Google Cloud Storage），通过Athena、Presto、Spark SQL等引擎进行查询，或者将其加载到数据仓库（BigQuery、Snowflake、Redshift）中，这是常见的做法。
保留： 根据合规性要求（可能从数月到数年不等）和操作需求，定义明确的数据保留策略。实施自动化归档或删除流程。
访问控制： 由于审计日志可能包含敏感操作数据或潜在的特征数据，因此应实行严格的访问控制。使用基于角色的访问控制（RBAC）来限制谁可以查看或管理日志。确保访问本身也受到审计。

下图展示了一个将预测和模型生命周期事件捕获到集中式日志系统的流程，然后可用于各种治理目的。

预测和模型生命周期事件流向集中式审计日志系统。预测服务记录请求/响应详情，而MLOps管道和模型注册表记录训练、验证、部署和注册等管理操作。

建立这些审计追踪需要在设计和基础设施方面进行前期投入，但由此产生的透明度和问责制对于在生产环境中负责任地、可靠地运行机器学习 (machine learning)模型是不可或缺的。它们在您的整体模型治理策略中形成了重要的一层。

这部分内容有帮助吗？

参考文献

MLOps: Continuous delivery and automation pipelines in machine learning, Google Cloud, 2024 (Google Cloud) - 提供了实施 MLOps 的架构指南，包括生产环境中机器学习模型的日志记录、监控和治理方面的实用考虑。
OECD Principles on Artificial Intelligence, Organisation for Economic Co-operation and Development (OECD), 2019 (Organisation for Economic Co-operation and Development (OECD)) - 负责任人工智能的国际基础框架，强调透明度、问责制和公平性等原则，审计追踪有助于在实践中实现这些原则。