所有课程

专家混合：高级架构、训练与扩展

章节 1: 稀疏专家模型基本原理

条件计算原理

稀疏专家混合模型（MoE）方法

对比密集激活与稀疏激活

基本MoE层的数学表述

章节 2: 进阶 MoE 架构

设计有效的门控网络

分层MoE结构

路由架构：线性、非线性、基于注意力

专家容量与规模考量

路由器稳定化技术

动手实践：实现自定义门控机制

章节 3: 训练动态与优化

MoE 中的负载均衡问题

辅助损失函数用于负载均衡

路由优化策略

处理丢弃令牌

专家特化退化及预防

优化器选择与超参数的影响

实践操作：实现和调整负载均衡损失

章节 4: 扩展 MoE 模型：分布式训练

分布式MoE训练中的难点

专家并行：在不同设备上分配专家

专家并行与数据并行的结合

All-to-All 通信模式

MoE 模型的流水线并行

通信优化方法（例如，重叠）

用于分布式MoE的框架和库 (例如：DeepSpeed, Tutel)

实践：配置分布式MoE训练

章节 5: 推理优化与部署

稀疏模型的推理难题

MoE推理的批处理策略

MoE 模型压缩方法

硬件加速的考量

路由器缓存与优化

大型稀疏模型的部署模式

动手实践：MoE 推理性能分析

All-to-All 通信模式

这部分内容有帮助吗？

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1701.06538 - 介绍了稀疏门控混合专家（MoE）层，这是需要专家并行和全对全通信的架构基础。
NVIDIA Collective Communications Library (NCCL) Developer Guide, NVIDIA Corporation, 2023 (NVIDIA) - NVIDIA NCCL 的官方文档，详细介绍了其优化的集体通信原语，包括 ncclAllToAll，对高性能基于 GPU 的分布式训练至关重要。
Using MPI: Portable Parallel Programming with the Message-Passing Interface (3rd Edition), William Gropp, Ewing Lusk, Anthony Skjellum, 2014 (The MIT Press) - 一本经典且全面的消息传递接口（MPI）标准指南，涵盖了用于分布式通信的 MPI_Alltoall 和 MPI_Alltoallv 操作。

© 2025 ApX Machine Learning用心打造