趋近智
第一章指出了管理机器学习 (machine learning)项目的难题,尤其是在处理不适合标准 Git 工作流程的大型数据集时。本章介绍数据版本控制 (DVC),这是一个开源工具,专门设计用于与代码一起管理数据版本,从而帮助解决这些问题。
我们将首先查看不同的数据版本管理方法,然后专注于 DVC 的运作方式以及它如何与 Git 结合。你将学习如何:
dvc add 开始追踪数据文件和目录。dvc push 和 dvc pull 在本地机器和远程存储之间同步数据。本章包含实际步骤,并以一个实践练习作为结尾,你将在其中运用这些命令来管理一个样本数据集的版本。在本章结束时,你将能够使用 DVC 在你的机器学习项目中实施有效的数据版本管理。
2.1 数据版本控制方法
2.2 介绍数据版本控制 (DVC)
2.3 在项目中设置DVC
2.4 跟踪数据文件和目录
2.5 数据版本的存储与获取
2.6 将 DVC 连接到远程存储 (S3、GCS、Azure Blob)
2.7 在不同数据版本间切换
2.8 动手实践:数据集版本管理
© 2026 ApX Machine Learning用心打造