趋近智
训练真正的大模型,不只是要理解像数据并行 ()、张量并行 () 和流水线并行 () 这样的并行策略;还需要专为处理其复杂性而设计的工具。本章将从之前讨论的理论思路转向使用专门框架的实际运用。
你将学习如何通过配置和使用 DeepSpeed 和 Megatron-LM 等流行库来运用这些策略。我们将介绍 DeepSpeed 的 ZeRO 内存优化设置(阶段 、 和 ),以及使用 Megatron-LM 配置张量并行和流水线并行。本章结束时,你将能够把分布式训练理论付诸实践,应用到你自己的大模型项目中。
16.1 分布式训练库概述
16.2 DeepSpeed 介绍
16.3 使用 DeepSpeed ZeRO 优化
16.4 Megatron-LM 介绍
16.5 配置 Megatron-LM 中的张量和流水线并行
16.6 结合框架与策略
© 2026 ApX Machine Learning用心打造