所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

路由决策与专长化分析

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Switch Transformers: Scaling to Trillion Parameter Models with Sparsely Activated Expert Layers, William Fedus, Barret Zoph, Noam Shazeer, 2022 Journal of Machine Learning Research, Vol. 23 (Microtome Publishing) DOI: 10.5555/3540306.3540316 - 描述了一种高效的专家混合架构，引入了辅助损失（包括负载均衡和路由Z-损失）以提高训练稳定性和专家利用率，有助于分析路由行为。
Sparsely Gated Mixture of Experts Layers, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 Advances in Neural Information Processing Systems, Vol. 30 (Neural Information Processing Systems Foundation, Inc. (NeurIPS)) DOI: 10.48550/arXiv.1701.06538 - 一项引入稀疏门控专家混合层到深度学习的奠基性工作，讨论了训练MoE模型的挑战，并强调了专家利用率和均衡路由。
GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding, Dmitry Lepikhin, Hieu Pham, Yanqi Zhou, Zhifeng Chen, Jeff Dean, 2021 International Conference on Learning Representations (ICLR) (ICLR) DOI: 10.48550/arXiv.2006.16668 - 提出了一个早期的MoE大规模系统，引入了多种训练条件计算模型的技术，包括用于负载均衡的辅助损失和高效的分布式训练。

© 2025 ApX Machine Learning用心打造