章节 3: 机器学习中的版本控制

一个机器学习 (machine learning)项目由多个不同部分组成：数据、源代码以及训练好的模型本身。如果模型性能出现意外变化，你该如何确定原因？是新数据集的问题，是特征工程代码的改动，还是超参数 (parameter) (hyperparameter)设置的不同？如果没有系统的方法来跟踪这些组件，回答这类问题会非常困难，甚至无法做到。版本控制为此提供了必要的组织框架。

本章介绍管理这些组件所需的实践，以确保你的工作具有可复现性。我们将首先明确为什么可复现性是构建易维护且可靠系统的要求。随后，你将学习针对机器学习项目三大产出物进行版本控制的技术：