所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

专家并行与数据并行的结合

这部分内容有帮助吗？

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 arXiv preprint arXiv:1701.06538 DOI: 10.48550/arXiv.1701.06538 - 介绍了稀疏门控混合专家 (MoE) 层，提供了架构基础。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus, Barret Zoph, Noam Shazeer, 2022 Journal of Machine Learning Research, Vol. 23 (Microtome Publishing) DOI: 10.5555/3546030.3546035 - 提出了一种高效的MoE架构，用于扩展至万亿参数模型，并包含实际的训练和分发方法。
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts, Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui, 2021 ICML 2022 DOI: 10.48550/arXiv.2112.06905 - 讨论了MoE模型扩展至1.2万亿参数，概述了高效分布式训练策略。

© 2025 ApX Machine Learning用心打造