趋近智
所有课程
4.1 分布式MoE训练中的难点
4.2 专家并行:在不同设备上分配专家
4.3 专家并行与数据并行的结合
4.4 All-to-All 通信模式
4.5 MoE 模型的流水线并行
4.6 通信优化方法(例如,重叠)
4.7 用于分布式MoE的框架和库 (例如:DeepSpeed, Tutel)
4.8 实践:配置分布式MoE训练
© 2025 ApX Machine Learning