趋近智
训练和微调 (fine-tuning)参数 (parameter)量达数十亿的模型,需要采用有别于标准机器学习 (machine learning)工作流程的专门操作方法。这种规模在计算、内存管理以及可能跨数百个加速器进行协调方面带来了很多难题。
本章侧重于管理这些大规模训练过程的运行管理方面。您将学习如何:
在本章结束时,您将掌握在MLOps框架内成功训练和微调大型语言模型的主要技术和运行管理方面的考量。
3.1 编排分布式训练任务
3.2 实现数据并行策略
3.3 实现模型并行策略
3.4 使用 DeepSpeed 和 Megatron-LM 等框架
3.5 参数高效微调(PEFT)的实施
3.6 大规模运行的实验跟踪
3.7 检查点与容错机制
3.8 实践操作:分布式训练配置