数据版本管理的基本思想

管理机器学习 (machine learning)项目会带来特有的难题，尤其是在处理数据时。虽然Git在追踪源代码变化方面表现出色，但其设计不适合机器学习中常见的大型、通常为二进制的数据集。尝试直接在Git中存储数千兆字节的数据集，会很快导致仓库膨胀、操作缓慢以及不便的工作流程。然而，清楚知道训练模型或生成评估指标时使用了哪个版本的数据，对于实现结果的再现性是必不可少的。

这就是数据版本管理发挥作用的地方。

什么是数据版本管理？

数据版本管理的核心在于系统地追踪和管理数据集的长期变动。可以将其类比为数据的版本控制，就像Git管理代码版本一样。然而，数据版本管理系统通常采用更巧妙的策略来处理大型文件，而非将整个数据集多次存入主代码仓库。

主要目标是在代码（通常在Git中追踪）、该代码使用的数据的具体版本以及由此产生的输出（如模型或指标）之间建立可靠的关联。

为何要进行数据版本管理？

实施数据版本管理可能看似多余一步，但其优势远大于前期投入，尤其当项目复杂性增加或需要团队协作时：

再现性： 这是最直接的益处。如果您需要重跑六个月前的实验，数据版本管理使您能够找回当时使用的精确数据集，同时也能获取对应的代码版本（由Git追踪）。没有它，您可能只有代码，导致数据状态不明。
调试： 设想一个场景，模型性能在数据更新后突然下降。数据版本管理能让您轻松切换回之前已知的良好数据集版本。这有助于区分性能下降是源于数据本身的变动，还是代码或模型配置的修改。
团队协作： 当多名团队成员共同处理一个项目时，数据版本管理确保每个人都使用一致且明确定义的数据集版本。它消除了因不同本地副本或命名模糊的数据文件（如data_latest.csv、data_final_v2_fixed.csv）而产生的困扰。
实验： 机器学习 (machine learning)通常涉及试用不同的数据预处理步骤或特征工程技术。每个变体都可以被视为数据的一个新版本，让您能够系统地追踪这些数据转换如何影响模型结果。
审计与治理： 在许多行业，特别是金融或医疗等受监管的行业，需要将模型的预测追溯到其训练所用的具体数据。数据版本管理提供了所需的血缘追踪，以满足合规性和审计要求。

数据版本管理的核心思想

尽管具体工具实现这些思想的方式不同（我们将在下一章DVC中看到），但大多数数据版本管理方法都基于以下几个共同的原理：

元数据与数据的分离： 大型数据文件通常存储在Git仓库外部的高效存储系统中（如云存储桶、网络驱动器，甚至是本地目录）。Git仓库只存储小的元数据文件。这些元数据文件作为指向外部存储中实际数据文件的指针或引用。
基于内容的寻址（哈希）： 数据版本通常通过从数据内容计算出的加密哈希值（例如MD5、SHA-256）来识别，而不是依赖文件名或时间戳。即使数据发生微小变动，哈希值也会完全改变。这确保了每个版本都能基于其内容被唯一且明确地识别。存储在Git中的元数据文件通常包含这些哈希值。
数据与代码提交的关联： 包含数据哈希值和位置信息的元数据文件与代码一同提交到Git。这形成了一个不可更改的关联：一个特定的Git提交指向特定的元数据文件，而这些元数据文件又指向经过内容验证的数据特定版本。检出旧的Git提交会带回与该时间点相符的元数据文件。
存储抽象： 优秀的数据版本管理工具通常提供一个抽象层，覆盖各种存储后端（AWS S3、Google Cloud Storage、Azure Blob Storage、SSH服务器、本地存储）。这意味着您可以定义数据存放何处，而无需改变如何追踪其版本。

实际上，数据版本管理让您能够以管理代码的相同严谨性来管理数据集，借助Git的优势（追踪基于文本的代码和小型元数据文件），并采用专用机制处理大型数据工件，同时保持清晰可追溯的历史记录。这种方法能使您的Git仓库保持小巧快速，同时确保您的整个机器学习 (machine learning)工作流程（包括数据）都经过版本管理且可再现。在下一章中，我们将了解数据版本控制（DVC）如何将这些思想付诸实践。

参考文献

DVC (Data Version Control) Documentation, Iterative.ai, 2024 - Data Version Control (DVC) 这一广泛使用的工具的官方文档，展示了数据版本控制概念如何在实践中实现。
Designing Machine Learning Systems: An Iterative Process for Production-Ready ML Applications, Chip Huyen, 2022 (O'Reilly Media) - 这本书从工程角度介绍了如何构建机器学习系统，包括关于数据管理、版本控制和可复现性的重要讨论。