机器学习代码的持续集成 (CI)

传统软件开发采用持续集成 (CI) 作为一种实践，开发人员频繁地将他们的代码更改合并到中央仓库中，随后运行自动化的构建和测试。其目标是及早发现集成问题。对于机器学习 (machine learning)，这一实践得到了扩展，以应对机器学习系统的组件。机器学习的 CI 不仅仅是测试代码；它还要确保每当引入更改时，整个训练流水线的完整性。

更改并不总是意味着新的 Python 代码。它可能是一个配置文件的更新、一个新的数据源，或者特征工程步骤的一个变动。一个强大的机器学习 CI 系统会自动验证这些更改，提供一个可靠的安全网，防止出现故障的流水线继续运行。

机器学习 (machine learning)的 CI 有何不同？

虽然机器学习的 CI 包含了标准的软件测试，但它增加了针对数据和模型的验证层。MLOps 工作流中典型的 CI 流水线由 git push 等事件触发，并负责运行一系列自动化检查。如果任何检查失败，流水线就会停止并报告错误，防止有瑕疵的更改被集成。

让我们分解机器学习 CI 流水线中的验证步骤。

1. 代码质量和单元测试

这是任何 CI 系统的前提。在担心数据或模型之前，必须确保代码本身是正确的。

Lint 检查： 运行自动化检查以确保代码符合风格规范。这提高了代码的可读性和可维护性。
单元测试： 这些是细小的、隔离的测试，用于验证单个函数或组件是否按预期工作。例如，特征工程函数的单元测试可能会检查它是否正确地缩放了数值数据，或者对类别特征进行了独热编码。一个简单的测试如下所示：
```
def test_normalize_age():
    # 给定一个样本年龄
    age = 40
    # 当进行归一化时
    normalized_age = normalize_age(age)
    # 那么结果应该在 0 和 1 之间
    assert 0 <= normalized_age <= 1
```

2. 数据和模式验证

这是机器学习 CI 开始与传统 CI 出现显著差异的地方。由于模型的行为高度依赖于输入数据，因此必须验证数据本身。这并不是要检查每个数据点的 准确性，而是要确保数据的结构和统计属性符合系统的预期。

模式验证： 系统检查输入数据是否符合预定义的模式。这包括验证列名、数据类型（例如，age 是整数，email 是字符串），并确保没有缺失预期的列。
统计属性检查： 流水线还可以检查数据的统计分布是否在预期范围内。例如，它可以检查特征的平均值是否发生了剧烈偏移，这可能表明上游数据存在损坏问题。此处的失败可以防止“垃圾数据”被用于训练模型。

3. 模型验证

在验证代码和数据之后，CI 流水线开始验证模型训练过程。这里的目的不是进行详尽的超参数 (parameter) (hyperparameter)调优，而是运行一次快速训练，以确认模型可以成功构建并达到最低质量标准。

可训练性测试： 流水线在一个细小的、固定的数据样本上运行训练脚本。主要目标是确保代码执行无误并生成模型产物。这可以捕捉训练逻辑中的 Bug。
性能阈值测试： 使用留出的验证数据集对新训练的模型进行评估。流水线检查其性能（例如准确率、F1 分数）是否高于预定义的合理阈值。例如，你可以设定一条规则，分类模型必须达到至少 75% 的准确率才能通过。这可以防止无意中降低模型性能的代码更改被合并。

自动化的 CI 工作流

这些验证步骤在一个自动化工作流中串联在一起。当开发人员提交更改时，CI 服务器会自动按顺序执行每个步骤。整个过程能够提供快速反馈，通常在几分钟内完成。

机器学习 (machine learning)项目典型的持续集成流水线。任何阶段的失败都会停止流程并提供即时反馈。

通过实施 CI，你为机器学习项目建立了一个质量关卡。它允许团队成员放心地贡献代码，因为他们知道有一套自动化检查会防止集成错误，从而促进协作。这种自动化验证是构建可靠端到端机器学习流水线的第一步，也是最重要的一步。它为我们接下来要讨论的持续交付和持续训练奠定了基础。

参考文献

Introducing MLOps: How to Go from Model to Production, Mark Treveil, Nicolas Omont, Aurélien Géron, Alexander H. G. R. Ikkersheim, Harald Karcher, Paco Nathan, Karl O. P. C. Van Acker, Manuela R. W. Van Acker, 2020 (O'Reilly Media) - 本书提供了MLOps的全面指南，涵盖了机器学习系统中持续集成、持续交付和持续训练的实践。
MLOps: Continuous Delivery and Automation Pipelines in Machine Learning, David Martin, Constantine Golubenko, Hamutal Shiri, David Syer, Danny P. Smith, Janakiram MSV, Evgeniy Smirnov, Jeremy Hylton, 2020 (Google Cloud) - 这份来自Google Cloud的重要指南概述了MLOps的基本原则和实践，详细阐述了机器学习管道的CI/CD，包括数据和模型验证步骤。
How Do Practitioners Test Machine Learning Systems? An Empirical Study, Coralie Mercier, Walid Maalej, Thorsten W. Joerg, 2021 IEEE Transactions on Software Engineering, Vol. 48 (IEEE) DOI: 10.1109/TSE.2021.3090875 - 这项实证研究调查了行业中机器学习系统测试的当前实践和挑战，为CI for ML背景下讨论的验证步骤提供了研究支持的视角。