趋近智
所有课程
3.1 分布式训练中的专家并行
3.2 结合模型并行、数据并行与专家并行
3.3 容量因子及其对性能的影响
3.4 缓解路由器Z损失不稳的办法
3.5 精度及其作用:BFloat16训练
3.6 预训练MoE模型的微调策略
3.7 实践:配置分布式训练作业
© 2025 ApX Machine Learning