趋近智
构建、训练并扩展领先的专家混合(MoE)模型。本课程涵盖先进架构设计、复杂的训练方法(包括路由与负载均衡优化),以及稀疏专家模型分布式扩展的高效策略。
先修课程 高级深度学习知识
级别:
高级MoE架构
分析并实现区别于基础设计的精巧MoE架构变体。
专家路由机制
理解并实践先进路由算法以及用于条件计算的门控网络。
MoE训练动态
应对MoE训练中的难题,包括负载均衡、路由器优化与专家特化。
分布式训练优化
应用特别为稀疏MoE模型定制的先进分布式训练技巧。
MoE扩展策略
实践结合模型、数据与流水线并行的高效MoE扩展策略。
性能分析与调优
分析、评估与调整大规模MoE模型在分布式环境下的性能。