在前几章中,我们学习了使用 DVC 进行数据版本管理和使用 MLflow 进行实验追踪的基本方法,现在我们将把这些工具结合起来使用。高效整合数据管理与实验记录,是构建真正可复现机器学习工作流程的核心部分。本章将提供关于以下方面的实践指导:将 DVC 追踪的特定数据版本与 MLflow 记录的相应实验运行连接起来。组织您的机器学习项目结构,以方便同时使用 DVC 和 MLflow。在 MLflow 运行中自动记录 DVC 元数据的方法。使用 dvc run 和 dvc repro 等 DVC 命令来建立和重现自动化管道。将 MLflow 追踪直接引入 DVC 管道阶段。制定最佳实践,以在同时使用 DVC 和 MLflow 时保持一致且可重现的工作流程。在本章结束时,您将学会如何构建一体化系统,在这些系统中,数据、代码、参数和结果的变化都能得到持续的追踪和管理。