所有课程

机器学习数据版本控制与实验记录

章节 1: 机器学习可复现性的必要性

机器学习项目管理中的难题

为何单独使用 Git 无法满足需求

定义机器学习中的可复现性

可复现机器学习工作流程的组成部分

数据版本管理的基本思想

实验追踪的基本理念

第 1 章测验

章节 2: 使用 DVC 管理数据版本

数据版本控制方法

介绍数据版本控制 (DVC)

在项目中设置DVC

跟踪数据文件和目录

数据版本的存储与获取

将 DVC 连接到远程存储 (S3、GCS、Azure Blob)

在不同数据版本间切换

动手实践：数据集版本管理

第 2 章测验

章节 3: 使用 MLflow 追踪实验

实验跟踪的重要性

MLflow 追踪功能介绍

记录参数和指标

记录工件（模型、图表、文件）

使用实验管理运行

使用 MLflow 用户界面

比较实验运行

实践：追踪训练运行

章节 4: DVC 与 MLflow 的整合：构建可复现的工作流程

关联数据版本与实验

为集成构建项目结构

在 MLflow 中记录 DVC 元数据

构建 DVC 流水线

复现 DVC 流水线

追踪 DVC 流水线指标

结合 DVC 流水线与 MLflow 追踪

集成工作流程的最佳实践

动手实践：构建集成式流程

结合 DVC 流水线与 MLflow 追踪

这部分内容有帮助吗？

参考文献

DVC Documentation, Iterative.ai, 2024 - 数据版本控制（DVC）的官方文档，提供了关于DVC管道、数据管理和可复现性的指南。
MLflow Tracking, MLflow Project, 2024 - MLflow跟踪组件的官方指南，详细介绍了如何记录参数、指标、工件和模型，这是本节内容的核心。
MLflow Experiment Tracking with DVC, Iterative.ai, 2024 - 此官方指南提供了将MLflow跟踪与DVC管道集成的说明和示例，直接涉及本节的核心主题。

© 2025 ApX Machine Learning用心打造