管理实验追踪

对代码、数据和模型进行版本控制有助于建立机器学习 (machine learning)的可复现性。尽管如此，还有一个核心问题：如何将特定的模型产物与其生成的具体训练过程联系起来？假设你训练了十几个模型，每个模型的设置都略有不同。一周后，你发现其中一个模型表现非常出色。你是否能准确地找回产生该模型时的代码版本、数据集哈希值和超参数 (parameter) (hyperparameter)组合？这就是实验追踪发挥作用的地方。

可以将实验追踪看作机器学习项目的系统化实验笔记本。它的做法是系统地记录与每次训练运行相关的所有信息。通过这种方式，你可以创建一个完整且可审计的记录，连接每一个环节，将一个可能混乱的过程转变为规范且科学的过程。

实验追踪的目的

如果没有正式的追踪系统，机器学习 (machine learning)开发通常依赖于一些不可靠的方法，如电子表格、复杂的文件命名约定（如 model_final_v2_with_more_data.pkl）或零散的文本文件。这种方式容易出现人为错误，难以与团队成员共享，而且几乎无法扩展。当你正式追踪实验时，你会获得以下几个优势：

完全可复现性： 通过记录代码的 Git 提交记录、数据版本和训练运行的参数 (parameter)，你可以精确地重现任何实验。这对于调试、验证结果以及建立对模型的信任至关重要。
系统化对比： 结构化的日志让你能够轻松对比不同的训练运行。你可以分析更改超参数 (hyperparameter)如何影响模型准确性，或者查看哪组特征集效果最好，从而帮助你做出基于数据的决策。
提升协作效率： 当实验结果被集中记录时，团队成员可以查看彼此的工作，避免重复运行相同的实验，并能在现有发现的基础上继续开发。这种透明度加快了开发周期。
简化审计与调试： 如果部署的模型开始出现问题，你可以追溯其完整的演变过程。你可以定位到创建该模型时的确切代码、数据和配置，这是诊断问题的第一步。

实验中需要记录的内容

一个完整的实验日志应该捕获理解和复现训练运行所需的所有信息。这些组成部分通常分为四个主要类别。

参数 (parameter)

参数是配置训练运行的输入项。它们是你控制的设置。记录任何可能影响最终模型的因素都会很有帮助。

超参数 (hyperparameter)： 些是控制学习算法本身的设置，例如神经网络 (neural network)的 learning_rate（学习率）、决策树的 max_depth（最大深度）或随机森林中的 n_estimators（评估器数量）。
数据和特征参数： 这包括有关输入数据的信息，例如训练集的路径、图像分辨率或用于训练的特征列表。
运行参数： 其他配置详情，如用于初始化的 random_seed（随机种子），以确保随机过程是可重复的。

指标

指标是衡量模型性能的量化 (quantization)输出。它们告诉你模型在特定任务上的表现如何。

评估指标： 这些是在验证集或测试集上计算的汇总分数。例如分类任务中的准确率 (accuracy)、精确率 (precision)、召回率 (recall) 和 F1 分数 (F1-score)，或者是回归任务中的 均方误差 (MSE) 和 R 方 (R-squared)。
训练指标： 有时记录训练过程中变化的指标也很有用，例如每轮 (epoch) 后的训练损失和验证损失。这有助于诊断过拟合 (overfitting)等问题。

产物 (Artifacts)

产物是在训练运行期间和结束时产生的文件。记录产物意味着以一种将其直接连接到对应运行记录的方式进行存储。

模型文件： 序列化后的训练模型对象本身（例如 .pkl、.h5 或 .pt 文件）。这是最重要的产物。
可视化图表： 帮助你理解模型行为的图表，例如混淆矩阵、ROC 曲线或特征重要性图表。
输出文件： 任何其他生成的文件，例如包含模型在测试集上预测结果的 CSV 文件。
环境规范： 像 requirements.txt 这样的文件，列出了所使用的所有库的版本，确保软件环境也可以重现。

源码与数据标识符

为了完成可复现性链路，你必须将实验关联回版本化的代码和数据。

代码版本： 用于该次运行的代码的 Git 提交哈希值。
数据版本： 用于训练的数据集的哈希值或版本标识符，通常由 DVC 等工具管理。

实验追踪的工具与工作流

虽然你可以从将这些信息记录到简单的 JSON 文件开始，但这种方法很快就会变得难以管理和对比。专用工具旨在解决这个问题，它们提供用于记录的 API 和用于查看结果的用户界面。

流行的开源工具如 MLflow Tracking 和 DVC Experiments 提供了管理此过程的结构化方法。一般的工作流如下：

代码埋点： 在训练脚本中，添加几行代码以连接到追踪服务。
开启运行： 在训练开始前，发出开启新实验运行的信号。
记录一切： 随着脚本执行，使用简单的命令记录参数 (parameter)、计算出的指标以及产生的任何产物。
结束运行： 训练完成后，发出运行结束的信号。

这是一个简化的类 Python 示例，展示了这一过程，使用了模拟典型实验追踪库的函数：

import experiment_tracker as et

# 定义超参数
params = {
    "learning_rate": 0.01,
    "epochs": 10,
    "optimizer": "Adam"
}

# 1. 开启新运行
with et.start_run(run_name="adam_optimizer_run"):

    # 2. 记录参数
    et.log_params(params)

    # 加载数据并进行预处理
    train_data, test_data = load_data("data/v2.0")

    # 训练模型
    model = train_model(train_data, params)

    # 评估模型
    metrics = evaluate_model(model, test_data) # 例如，返回 {"accuracy": 0.92, "loss": 0.15}

    # 3. 记录指标
    et.log_metrics(metrics)

    # 保存模型文件
    model.save("model.h5")

    # 4. 将模型文件记录为产物
    et.log_artifact("model.h5")

# 当 'with' 语句块退出时，运行会自动结束。

这段代码创建了一个自包含且可复现的记录。追踪工具存储所有这些信息，将记录的参数、指标和 model.h5 产物统一关联在一个运行 ID 下。

对比与分析结果

当你需要对比多次运行记录时，实验追踪的真正价值就会显现。你不需要翻阅文件和文件夹，而是可以使用工具的用户界面在一个整洁、可筛选的表格中查看所有运行情况。

典型的实验追踪界面允许你对比运行记录。在这个例子中，你可以通过“准确率”等指标快速排序，找到表现最好的运行记录（run_ghi_789），并查看产生该结果的相应超参数 (parameter) (hyperparameter)（max_depth=10, n_estimators=100）。

许多工具还提供可视化功能来对比运行，例如将超参数映射到结果的散点图，或显示不同模型的训练损失随时间下降情况的图表。这些视觉反馈对于建立直觉和指导下一组实验非常有价值。

通过将实验追踪集成到你的工作流中，你可以为模型开发过程建立完整、可审计的历史记录。这种做法将版本化的代码、数据和模型紧密联系在一起，确保你的工作不仅有效，而且透明且可复现。

这部分内容有帮助吗？

参考文献

MLflow Tracking, The MLflow Authors, 2024 - MLflow实验追踪组件的官方文档，提供实际指导和API详情。
DVC Experiments, DVC Documentation, 2024 - DVC实验管理功能的官方文档，详细说明如何追踪和比较机器学习实验。
Designing Machine Learning Systems: An Iterative Process for Production-Ready AI, Chip Huyen, 2022 (O'Reilly Media) - 一本关于设计完整机器学习系统的书籍，其中章节涵盖实验管理和可复现性实践。