所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

路由器稳定化技术

这部分内容有帮助吗？

参考文献

Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus, Barret Zoph, Noam Shazeer, 2022 Journal of Machine Learning Research, Vol. 23 (JMLR, Inc. and Microtome Publishing) DOI: 10.5555/3547466.3547565 - 介绍了路由器Z-Loss，并讨论了专家容量，这对训练稳定的MoE模型至关重要。
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 International Conference on Learning Representations (ICLR 2017) DOI: 10.48550/arXiv.1701.06538 - 一篇关于现代稀疏MoE层的基础性论文，概述了门控网络的早期挑战和负载均衡方法。
Deep Learning, Ian Goodfellow, Yoshua Bengio, and Aaron Courville, 2016 (MIT Press) - 详细介绍了正则化方法和梯度裁剪，这些通用技术适用于路由器稳定性。

© 2025 ApX Machine Learning用心打造