你已经掌握了如何构建 Docker 镜像以及在容器中处理数据。本章将重点转向把这些技术应用于机器学习训练过程本身。直接运行训练脚本常常导致环境差异,使得结果难以复现。容器化通过将训练代码、其依赖项和配置打包成一个单一的可移植单元,提供了一个解决方案。在本章中,你将学习容器化机器学习训练流程的实用方法。我们将会讨论如何组织训练脚本以在容器中执行,如何传递超参数等配置,以及如何使用 docker run 运行训练任务。管理训练日志、使用 NVIDIA GPU 进行加速以及使用 Docker Compose 进行基本的多容器训练设置等技术也将会讲解。