所有课程

机器学习数据版本控制与实验记录

章节 1: 机器学习可复现性的必要性

机器学习项目管理中的难题

为何单独使用 Git 无法满足需求

定义机器学习中的可复现性

可复现机器学习工作流程的组成部分

数据版本管理的基本思想

实验追踪的基本理念

第 1 章测验

章节 2: 使用 DVC 管理数据版本

数据版本控制方法

介绍数据版本控制 (DVC)

在项目中设置DVC

跟踪数据文件和目录

数据版本的存储与获取

将 DVC 连接到远程存储 (S3、GCS、Azure Blob)

在不同数据版本间切换

动手实践：数据集版本管理

第 2 章测验

章节 3: 使用 MLflow 追踪实验

实验跟踪的重要性

MLflow 追踪功能介绍

记录参数和指标

记录工件（模型、图表、文件）

使用实验管理运行

使用 MLflow 用户界面

比较实验运行

实践：追踪训练运行

章节 4: DVC 与 MLflow 的整合：构建可复现的工作流程

关联数据版本与实验

为集成构建项目结构

在 MLflow 中记录 DVC 元数据

构建 DVC 流水线

复现 DVC 流水线

追踪 DVC 流水线指标

结合 DVC 流水线与 MLflow 追踪

集成工作流程的最佳实践

动手实践：构建集成式流程

为何单独使用 Git 无法满足需求

这部分内容有帮助吗？

参考文献

Pro Git, Chapter 10.3 Packfiles, Scott Chacon, Ben Straub, 2014 (Apress) - 解释了 Git 的内部数据存储机制，特别是打包文件，阐明了为什么大型二进制文件会导致仓库膨胀和性能下降。
Git Large File Storage (LFS), GitHub, 2023 (GitHub) - 官方文档详细介绍了 Git LFS 的设计和操作，以及它如何在核心 Git 仓库之外管理大文件。
Why DVC?, Iterative.ai, 2023 (Iterative.ai) - 解释了 Git 和 Git LFS 在版本化大型数据集和追踪机器学习实验方面的局限性，支持使用 DVC 等专用工具。

© 2025 ApX Machine Learning用心打造