趋近智

所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

专家混合：高级架构、训练与扩展

构建、训练并扩展领先的专家混合（MoE）模型。本课程涵盖先进架构设计、复杂的训练方法（包括路由与负载均衡优化），以及稀疏专家模型分布式扩展的高效策略。

先修课程 高级深度学习知识

级别:

专家

高级MoE架构
分析并实现区别于基础设计的精巧MoE架构变体。
专家路由机制
理解并实践先进路由算法以及用于条件计算的门控网络。
MoE训练动态
应对MoE训练中的难题，包括负载均衡、路由器优化与专家特化。
分布式训练优化
应用特别为稀疏MoE模型定制的先进分布式训练技巧。
MoE扩展策略
实践结合模型、数据与流水线并行的高效MoE扩展策略。
性能分析与调优
分析、评估与调整大规模MoE模型在分布式环境下的性能。

本课程没有先修课程。

目前没有推荐的后续课程。

登录以撰写评论

分享您的反馈以帮助其他学习者。

© 2026 ApX Machine Learning