所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

门控网络：公式与作用

这部分内容有帮助吗？

参考文献

Hierarchical mixtures of experts and the EM algorithm, Michael I. Jordan, Robert A. Jacobs, 1994 Neural Computation, Vol. 6 (MIT Press) DOI: 10.1162/neco.1994.6.2.181 - 建立了专家混合模型的基础框架，包括门控网络在数据流导向中的作用。
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 International Conference on Learning Representations (ICLR) DOI: 10.48550/arXiv.1701.06538 - 介绍了稀疏门控专家混合层，这是对扩展专家混合模型的重要贡献，详细阐述了Top-k路由和负载均衡。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus, Barret Zoph and Noam Shazeer, 2022 The Journal of Machine Learning Research, Vol. 23 (Microtome Publishing) DOI: 10.5555/3618408.3618585 - 描述了Transformer模型中稀疏激活专家混合层的实际应用和扩展，提供了关于路由和训练稳定性的见解。

© 2025 ApX Machine Learning用心打造