传递配置和超参数

将训练环境打包成Docker镜像有助于标准化部署。随之而来的主要挑战是如何有效运行特定的训练任务，而无需为每个实验不断修改镜像。将学习率、数据集路径或训练轮数等值直接嵌入 (embedding)到脚本中会阻碍重用和可重现性。目标是将容器镜像视为不可更改的产物，并为每次特定的训练运行从外部提供配置。

在启动Docker容器时，有两种主要方式可以将配置参数 (parameter)传递进去：环境变量和命令行参数。下面我们来看看如何有效地将它们用于机器学习 (machine learning)训练流程。

使用环境变量

环境变量是存在于容器运行环境中的键值对。它们是为在容器内运行的应用程序提供配置信息的标准方式。

在Dockerfile中定义默认值

您可以使用ENV指令直接在Dockerfile中设置环境变量的默认值。这有助于设置合理的默认值，或定义容器结构内的标准路径。

# 基础镜像（例如，Python或特定框架的镜像）
FROM python:3.9-slim

# 设置容器内训练数据的默认路径
ENV TRAINING_DATA_PATH=/data/train.csv
ENV MODEL_OUTPUT_DIR=/output

# 复制应用程序代码
WORKDIR /app
COPY . .

# 安装依赖
RUN pip install --no-cache-dir -r requirements.txt

# 默认命令（假设train.py读取环境变量）
CMD ["python", "train.py"]

运行时覆盖默认值

真正的灵活性在于，当您使用docker run命令以及-e或--env标志启动容器时，可以覆盖这些默认值或提供新的环境变量。

# 使用默认数据路径运行训练
docker run my_training_image

# 运行训练，指定不同的数据路径
docker run -e TRAINING_DATA_PATH=/data/augmented_train.csv my_training_image

# 指定多个变量，包括Dockerfile中未定义的变量
docker run \
  -e TRAINING_DATA_PATH=/data/subset_train.csv \
  -e MODEL_OUTPUT_DIR=/models/run123 \
  -e LEARNING_RATE=0.001 \
  my_training_image

在Python中访问环境变量

在您的Python训练脚本中，可以使用os模块访问这些环境变量。在脚本开始时获取这些值是一个好习惯。

import os
import argparse

# --- 配置 ---
# 从环境变量获取路径，如果未设置则提供默认值
data_path = os.getenv('TRAINING_DATA_PATH', '/data/train.csv') # 默认备用值
model_dir = os.getenv('MODEL_OUTPUT_DIR', '/output')
# 从环境变量获取超参数（也可以使用argparse）
learning_rate = float(os.getenv('LEARNING_RATE', 0.01)) # 默认备用值
epochs = int(os.getenv('EPOCHS', 10)) # 默认备用值

print(f"--- 训练配置 ---")
print(f"数据路径: {data_path}")
print(f"模型输出目录: {model_dir}")
print(f"学习率: {learning_rate}")
print(f"训练轮数: {epochs}")
print(f"-----------------------------")

# --- 实际训练逻辑的占位符 ---
# 从data_path加载数据
# 使用learning_rate和epochs训练模型
# 将模型保存到model_dir
print("模拟模型训练中...")
# --- 占位符结束 ---

print("训练完成。")

环境变量很适合用于文件路径、API密钥（在生产环境中应谨慎处理秘密信息，例如使用Docker secrets或托管服务），或简单的标志和设置等配置参数 (parameter)。

使用命令行参数 (parameter)

另一种配置应用程序的常见方式是，在程序启动时通过命令行参数传递。此方法对于定义特定实验的参数，例如超参数 (hyperparameter)，特别有效。

设计脚本以接受参数

您的训练脚本需要设计成能够解析传递给它的参数。Python内置的argparse模块非常适合此目的。

import os
import argparse

# --- 参数解析 ---
parser = argparse.ArgumentParser(description='机器学习模型训练脚本')

# 定义命令行参数
parser.add_argument('--data-path', type=str, default=os.getenv('TRAINING_DATA_PATH', '/data/train.csv'),
                    help='训练数据文件的路径')
parser.add_argument('--model-dir', type=str, default=os.getenv('MODEL_OUTPUT_DIR', '/output'),
                    help='保存训练模型的目录')
parser.add_argument('--learning-rate', type=float, default=float(os.getenv('LEARNING_RATE', 0.01)),
                    help='优化器的学习率')
parser.add_argument('--epochs', type=int, default=int(os.getenv('EPOCHS', 10)),
                    help='训练轮数')

# 解析参数
args = parser.parse_args()

print(f"--- 训练配置（通过ArgParse）---")
print(f"数据路径: {args.data_path}")
print(f"模型输出目录: {args.model_dir}")
print(f"学习率: {args.learning_rate}")
print(f"训练轮数: {args.epochs}")
print(f"-------------------------------------------")

# --- 实际训练逻辑的占位符 ---
# 从args.data_path加载数据
# 使用args.learning_rate和args.epochs训练模型
# 将模型保存到args.model_dir
print("模拟模型训练中...")
# --- 占位符结束 ---

print("训练完成。")

请注意我们如何可以结合使用这些方法：argparse可以定义从环境变量获取的默认值，从而提供灵活性。

通过docker run传递参数

要将命令行参数传递给容器内的脚本，只需将它们附加到docker run命令的镜像名称之后。这些参数会传递给容器的ENTRYPOINT或CMD。

假设您的Dockerfile中有一个ENTRYPOINT，例如：

# ... (Dockerfile的其余部分)
ENTRYPOINT ["python", "train.py"]

或者一个CMD（尽管对于脚本来说，ENTRYPOINT通常更受推荐）：

# ... (Dockerfile的其余部分)
CMD ["python", "train.py"]

您可以这样运行它：

# 使用特定超参数运行训练
docker run my_training_image \
  --learning-rate 0.005 \
  --epochs 25 \
  --data-path /data/processed_features.pkl \
  --model-dir /output/experiment_abc

这些参数（--learning-rate 0.005等）会附加到ENTRYPOINT（或覆盖CMD），并由您的train.py脚本中的argparse进行解析。

选择合适的方式

环境变量和命令行参数 (parameter)都是传递配置的有效方式。这里有一个通用指导原则：

环境变量 (ENV, -e): 更适合环境特定设置（例如在开发、预发布、生产环境之间可能不同的路径）、秘密信息（尽管专用秘密管理更好），或不太可能在每次训练运行时都更改的配置。它们定义了脚本运行的上下文 (context)。
命令行参数 (docker run ... <args>): 非常适合特定执行或实验的参数，例如超参数 (hyperparameter)（learning_rate、batch_size）、运行标识符，或控制脚本行为的标志（--evaluate-only）。它们定义了脚本应执行的任务。

使用命令行参数通常会使特定docker run命令的意图更清晰，因为实验参数已明确列出。

处理复杂配置

对于包含嵌套参数 (parameter)或长列表的复杂配置，通过环境变量或命令行参数传递所有内容可能会变得繁琐。一种常见做法是使用配置文件（例如config.yaml或params.json）。

在您的宿主机上创建配置文件。
使用绑定挂载（第三章）将文件挂载到容器中。
使用环境变量或命令行参数将配置文件在容器内的路径传递进去。
修改您的脚本以加载和解析此配置文件。

# 示例：挂载config.yaml并告知脚本其位置
docker run -v $(pwd)/config.yaml:/app/config.yaml \
           my_training_image --config /app/config.yaml

您的Python脚本随后可以使用PyYAML或json等库加载/app/config.yaml。

通过使用环境变量、命令行参数或挂载的配置文件来外部化配置，您可以创建灵活且可重用的训练容器。这种分离使您能够使用完全相同的Docker镜像运行大量带有不同参数的实验，从而大幅提升机器学习 (machine learning)训练流程的可重现性和可管理性。

这部分内容有帮助吗？

参考文献

Dockerfile ENV instruction, Docker, 2024 - 关于在 Dockerfile 中直接设置带有默认值的环境变量的官方文档。
docker run --env, Docker, 2024 (Docker) - 关于在运行时使用 docker run 命令的 --env 标志向 Docker 容器传递环境变量的官方文档。
Dockerfile CMD and ENTRYPOINT instructions, Docker, 2024 - 关于 CMD 和 ENTRYPOINT 指令如何定义 Docker 容器的可执行文件和默认参数的官方文档，这对于处理命令行参数至关重要。
argparse - Parser for command-line options, arguments and sub-commands, Python Software Foundation, 2024 - Python argparse 模块的官方文档，该模块在 Python 脚本中用于有效解析命令行参数。
Use bind mounts, Docker, 2024 - 关于绑定挂载的官方文档，这是一种将主机文件或目录共享到 Docker 容器的机制，常用于外部配置文件。