趋近智
首页
博客
课程
大模型
中
所有课程
专家混合模型:核心思想与实践应用
章节 1: 专家混合模型的核心原理
稀疏门控专家混合架构概述
门控网络:公式与作用
专家网络:专精与容量
MoE层的数学表述
负载均衡和辅助损失
MoE 训练中的难题:专家退化
与密集模型扩展的比较
动手实践:实现一个基本 MoE 层
章节 2: 进阶路由机制
Top-k门控及其变体的分析
噪声Top-k门控实现负载均衡
基于哈希的确定性选择路由
Switch Transformer:简化路由
软MoE:可微分路由
路由决策与专长化分析
动手实践:实现不同的路由策略
章节 3: 大规模MoE的训练与优化
分布式训练中的专家并行
结合模型并行、数据并行与专家并行
容量因子及其对性能的影响
缓解路由器Z损失不稳的办法
精度及其作用:BFloat16训练
预训练MoE模型的微调策略
实践:配置分布式训练作业
章节 4: 高效的MoE模型推理
推理面临的困难:内存与延迟
专家卸载到 CPU 或 NVMe
稀疏激活的批处理策略
MoE 模型压缩的模型蒸馏
MoE层量化技术
使用MoE模型进行推测解码
动手实践:构建优化推理管线
章节 5: MoE在现代架构中的应用
将FFN替换为Transformer中的MoE层
MoE 层的位置:频率与部位
视觉Transformer (ViT) 中的MoE
多模态模型中的MoE
架构变体及其特性
分析参数与FLOPs的权衡
实践:修改Transformer模型以使用MoE
MoE 层的位置:频率与部位
这部分内容有帮助吗?
有帮助
报告问题
标记为完成
© 2025 ApX Machine Learning
MoE 层的最佳放置