趋近智
所有课程
5.1 将FFN替换为Transformer中的MoE层
5.2 MoE 层的位置:频率与部位
5.3 视觉Transformer (ViT) 中的MoE
5.4 多模态模型中的MoE
5.5 架构变体及其特性
5.6 分析参数与FLOPs的权衡
5.7 实践:修改Transformer模型以使用MoE
© 2025 ApX Machine Learning