所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

预训练MoE模型的微调策略

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Dean, 2017 arXiv preprint arXiv:1701.06538 DOI: 10.48550/arXiv.1701.06538 - 介绍了稀疏门控混合专家（MoE）层和用于负载均衡的辅助损失，这是MoE架构的基础。
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity, William Fedus, Barret Zoph, Noam Shazeer, 2021 Journal of Machine Learning Research DOI: 10.48550/arXiv.2101.03961 - 介绍了Switch Transformers，一种高度可扩展的MoE架构，详细说明了训练方法和辅助损失在大规模稀疏模型中的作用。
LoRA: Low-Rank Adaptation of Large Language Models, Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, 2021 arXiv preprint arXiv:2106.09685 DOI: 10.48550/arXiv.2106.09685 - 提出了低秩适应（LoRA），一种参数高效的微调方法，减少了适应大型模型所需训练的参数量。

© 2025 ApX Machine Learning用心打造