趋近智
所有课程
1.1 稀疏门控专家混合架构概述
1.2 门控网络:公式与作用
1.3 专家网络:专精与容量
1.4 MoE层的数学表述
1.5 负载均衡和辅助损失
1.6 MoE 训练中的难题:专家退化
1.7 与密集模型扩展的比较
1.8 动手实践:实现一个基本 MoE 层
© 2025 ApX Machine Learning