所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

MoE 中的负载均衡问题

这部分内容有帮助吗？

参考文献

Sparsely-Gated Mixture-of-Experts Layers, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1701.06538 - 这篇基础性论文介绍了稀疏门控专家混合模型（MoE）的概念，并提出了用于平衡专家负载的辅助损失函数，直接解决了文中描述的问题。
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, Dmitry Lepikhin, Hieu Pham, Orhan Firat, Michele Catasta, Zhifeng Chen, George Tucker, Azade Nova, Andre Barreto, Max Dean, and Jeff Dean, 2020 arXiv preprint arXiv:2006.16668 DOI: 10.48550/arXiv.2006.16668 - 这项工作展示了MoE模型实际扩展到大规模的案例，强调了高效负载分配和自动化分片策略的必要性，这些策略与负载平衡问题紧密相关。
Router Argumentation for Mixture-of-Experts, Koustuv Sinha, Michael Noukhovitch, Subhabrata Roy, Karthik Srinivasan, William Fedus, Michael Ryoo, and Yoshua Bengio, 2022 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.2202.04944 - 本文提出了改进门控网络路由决策的方法，通过使路由更加稳健，直接促进了更好的负载平衡和专家特化。

© 2025 ApX Machine Learning用心打造