趋近智
一个机器学习 (machine learning)项目由多个不同部分组成:数据、源代码以及训练好的模型本身。如果模型性能出现意外变化,你该如何确定原因?是新数据集的问题,是特征工程代码的改动,还是超参数 (parameter) (hyperparameter)设置的不同?如果没有系统的方法来跟踪这些组件,回答这类问题会非常困难,甚至无法做到。版本控制为此提供了必要的组织框架。
本章介绍管理这些组件所需的实践,以确保你的工作具有可复现性。我们将首先明确为什么可复现性是构建易维护且可靠系统的要求。随后,你将学习针对机器学习项目三大产出物进行版本控制的技术:
我们还会讲解实验跟踪,即记录每次模型训练运行相关的参数、指标和产出物的过程。本章最后有一个实践练习,你将在其中把这些版本控制技术应用到一个简单的机器学习项目中。
3.1 可复现性的必要性
3.2 使用 Git 进行代码版本控制
3.3 数据版本控制简介
3.4 模型版本管理技术
3.5 管理实验追踪
3.6 动手实践:为简单机器学习项目建立版本控制