章节 4: 容器化机器学习训练流程

你已经掌握了如何构建 Docker 镜像以及在容器中处理数据。本章将重点转向把这些技术应用于机器学习 (machine learning)训练过程本身。直接运行训练脚本常常导致环境差异，使得结果难以复现。容器化通过将训练代码、其依赖项和配置打包成一个单一的可移植单元，提供了一个解决方案。

在本章中，你将学习容器化机器学习训练流程的实用方法。我们将会讨论如何组织训练脚本以在容器中执行，如何传递超参数 (parameter) (hyperparameter)等配置，以及如何使用 docker run 运行训练任务。管理训练日志、使用 NVIDIA GPU 进行加速以及使用 Docker Compose 进行基本的多容器训练设置等技术也将会讲解。

课程章节

4.1 容器训练脚本的组织方式
4.2 传递配置和超参数
4.3 使用 `docker run` 运行训练任务
4.4 管理训练日志
4.5 训练的GPU加速
4.6 Docker Compose在训练环境中的应用简介
4.7 动手实践：容器化并运行训练脚本