审计与合规性考量

随着特征存储成为可能用于重要机器学习 (machine learning)应用的敏感数据的核心枢纽，建立健全的审计能力并遵守合规规定，不仅仅是最佳实践，通常更是法律和操作上的必需。基于之前讨论的治理框架和安全模型，本节阐述了如何在您的特征存储背景下实施全面的审计追踪，并应对数据隐私法规和行业特定要求。

有效的审计能够提供关于特征如何创建、修改、访问和使用的透明度，这对调试、安全调查和证明合规性都十分必要。合规性，特别是与GDPR（通用数据保护条例）和CCPA（加州消费者隐私法）等法规相关的合规性，对数据处理、用户权利和问责制提出了严格要求。

特征存储审计的核心要求

特征存储的全面审计追踪应捕获特征整个生命周期中的事件。请考虑记录以下操作：

特征定义变更： 谁创建、更新或删除了特征定义（或特征视图/集）？何时发生？变更了什么？
数据摄取与转换： 哪个管道运行摄取或转换了特定特征集的数据？使用了哪些源数据？作业何时运行，其状态如何（成功/失败）？
特征值访问（在线/离线）：
- 在线存储： 哪个服务或用户为哪些实体ID请求了特征？请求何时发出？检索了哪些特征？访问是允许还是拒绝？记录每一次在线查询可能产生大量数据，因此根据性能承受能力和要求，可能需要抽样或侧重于敏感特征。
- 离线存储： 哪个用户或作业查询了历史特征数据？涉及了什么时间范围和实体？查询何时执行？
访问控制变更： 谁修改了与特征访问相关的权限或角色？变更何时发生？
系统配置变更： 对特征存储操作设置的修改，特别是与安全或数据保留相关的修改。

这些日志应：

不可篡改： 以防止篡改的方式存储（例如，一次写入存储、仅追加日志）。
可归因： 明确将操作与特定用户、服务账户或自动化流程关联起来。
带有时间戳： 使用一致可靠的时间源（优选UTC）。
结构化： 格式一致（例如，JSON），以便自动化解析、查询和警报。
留存： 按照组织策略和法规要求定义的时长进行存储。

实施审计追踪

尽可能善用现有基础设施和平台能力。云提供商提供强大的日志服务（例如，AWS CloudTrail、Google Cloud Audit Logs、Azure Monitor Audit Logs），可以捕获对托管服务发出的API调用，包括常用于在线/离线存储或管道编排工具的数据库。

然而，平台日志可能无法捕获特定于特征存储逻辑的应用级上下文 (context)（例如，特征定义更新的语义含义）。您需要对特征存储框架本身进行日志功能嵌入 (embedding)：

API层： 记录所有管理操作（对特征、组、项目的CRUD操作）和潜在的敏感数据访问请求。
摄取/转换管道： 在您的Spark、Flink或其他管道作业中集成日志功能，以记录数据源、应用的转换和输出位置。
特征服务： 在服务层添加日志钩子，以捕获查询请求，如果可能，将其与模型推理 (inference)请求关联起来。

强烈建议将这些日志集中到一个专门的安全信息和事件管理（SIEM）系统或集中式日志平台（如Elasticsearch/Logstash/Kibana (ELK) 堆栈、Splunk或Datadog）。这有助于统一分析、跨不同组件关联，以及设置可疑活动警报。

应对合规框架

GDPR和CCPA等法规赋予个人对其个人数据的特定权利。您的特征存储设计和操作流程必须适应这些要求：

访问权： 您需要一种机制来在在线和离线存储中检索与特定个人标识符相关联的所有特征值。这要求基于映射到个人的实体ID具备高效的索引和查询能力。
删除权（被遗忘权）： 这通常是最具挑战性的权利。删除用户数据需要从在线存储、离线存储（数据湖、数据仓库）中可能的大型数据集以及任何备份中移除记录。
- 如果历史数据被移除，考虑对模型再训练时点正确性的影响。匿名化或假名化可能是替代策略，尽管它们有自己的复杂性。
- 跟踪删除请求并通过审计日志确认执行情况。
数据最小化： 审计日志和特征血缘可以帮助证明仅收集和使用必要的特征用于特定、合法的建模目的。
同意管理： 如果同意是处理的基础，将特征生成和使用与同意记录关联起来。

行业特定法规（如医疗保健领域的HIPAA或金融领域的SOX）通常对数据安全、访问控制严格性和审计追踪保留期施加额外要求。之前讨论的血缘追踪和访问控制机制对于满足这些义务是不可或缺的。确保数据在静止状态（在线/离线存储中）和传输中（API调用和数据移动期间）都进行加密。

自动化合规与审计

手动合规检查容易出错且效率低下。自动化是必需的：

策略即代码： 使用Open Policy Agent (OPA) 等工具，直接在您的特征存储控制平面或CI/CD管道中定义和执行规则。例如，根据命名约定或数据分析结果，自动标记 (token)或阻止似乎包含个人身份信息（PII）的新特征定义。
自动化报告： 安排作业查询审计日志并生成定期报告，用于合规审查、访问摘要或异常检测。
CI/CD集成： 在您的管道中包含自动化检查，以根据合规规则验证特征定义，或在部署前扫描代码中的安全漏洞。

审计和自动化合规检查在CI/CD管道和运行时操作中的集成点，这些信息汇入集中式日志系统进行分析和报告。

挑战与考量

实施审计和确保合规性并非没有挑战：

性能开销： 大量日志记录，特别是对于高吞吐量 (throughput)的在线存储，可能影响性能并增加成本。仔细规划日志级别和采样是必需的。
日志量和成本： 集中式日志记录和长保留期可能导致大量的存储和分析成本。实施有效的日志生命周期管理。
复杂性： 跨不同系统（源数据库、ETL工具、特征存储组件、使用应用程序）关联事件可能很复杂。标准化的日志格式和关联ID有所帮助。
法规不确定性： 合规环境在演变。及时了解与您的数据和地理位置相关的法规变化。

通过主动设计您的特征存储，同时考虑审计和合规，在特征整个生命周期中集成日志记录，并借助自动化，您可以建立信任、降低风险，并负责任地运营您的机器学习 (machine learning)系统。这一基础对于在您的MLOps生态系统中保持控制和安全是不可或缺的。

这部分内容有帮助吗？

参考文献

Machine Unlearning: A Survey, Bo-Wei Liu, Yanjie Zhao, Jincheng Huang, Yi Zeng, Jiyi Li, Gang Li, S.M. Yiu, 2023 ACM Computing Surveys, Vol. 55 (Association for Computing Machinery (ACM)) DOI: 10.1145/3604901 - 介绍机器学习系统中“被遗忘权”（数据擦除）的技术实现，与特征存储的合规性直接相关。
Introducing MLOps: How to Scale Machine Learning in the Enterprise, Mark Treveil, Nicolas Omont, Aurélien Geron, Noah Gift, Alexey Grigorev, Ines Montani, Hannes Hapke, Max Pumperla, 2020 (O'Reilly Media) - 考察机器学习的运营方面，包括 MLOps 中的治理、安全和数据管理，为特征存储审计和合规性提供了背景。