所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

稀疏模型的推理难题

这部分内容有帮助吗？

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1701.06538 - 奠基性工作，介绍了混合专家架构，讨论了稀疏性在模型扩展中的必要性，并暗示了其计算和内存方面的影响。
DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training for Large Language Models, Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza Yazdani Aminabadi, Ammar Ahmad Awan, Jeff Rasley, Yuxiong He, 2022 Proceedings of the 39th International Conference on Machine Learning (ICML 2022), Vol. 162 (PMLR) DOI: 10.48550/arXiv.2201.05596 - 描述了MoE模型的具体推理挑战，并提出了优化延迟、吞吐量和内存利用率的解决方案，包括负载均衡和通信技术。
Tutel: Adaptive Mixture-of-Experts Training for Faster Convergence and Better Quality, Zhengda Chen, Xiaoxia Wu, Minjia Zhang, Yuxiong He, 2023 IEEE Transactions on Parallel and Distributed Systems, Vol. 34 (IEEE) DOI: 10.1109/TPDS.2023.3283259 - 详细介绍了一个MoE系统，侧重于优化执行，包括在推理过程中管理通信开销和负载不均衡的技术。
GLaM: Efficient Scaling of Language Models with MoE, Nan Du, Yanping Huang, Andrew M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc V Le, Yonghui Wu, Zhifeng Chen, Claire Cui, 2022 International Conference on Machine Learning (ICML) 2022 DOI: 10.48550/arXiv.2112.06905 - 提出了一种大规模MoE语言模型，讨论了其在推理过程中的效率的实际考虑，包括大规模内存和计算方面的因素。

© 2025 ApX Machine Learning用心打造