趋近智
扩展深度学习 (deep learning)模型超出单GPU限制,需要精密的并行化方案。本课程介绍PyTorch中的FSDP(全分片数据并行)技术,它对训练大型语言模型(LLM)及其他参数 (parameter)量巨大的模型结构非常实用。内容涉及DDP的局限性,并原生实现了Zero冗余优化器(ZeRO)算法。所讲内容包括分片策略、BFloat16混合精度训练、激活检查点和CPU卸载。课程还涉及多节点集群配置、使用NCCL分析网络瓶颈,以及管理分布式状态字典以实现容错。重点在于TB级模型的性能调优和内存效率。
先修课程 PyTorch高级应用,分布式基础知识
级别:
FSDP架构
利用ZeRO阶段对参数、梯度和优化器状态进行分区,设计扩展方案。
内存优化
实现激活检查点和CPU卸载,以最大化每GPU的吞吐量。
多节点网络
配置并调整NCCL通信,以实现高效的跨节点扩展。
性能分析
分析通信与计算重叠,并解决内存碎片问题。