所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

精度及其作用：BFloat16训练

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

BFloat16: The Secret to High Performance on Cloud TPUs, Shibo Wang, Pankaj Kanwar, 2019 (Google Cloud Blog) - 解释了BFloat16的设计，其宽动态范围对深度学习的作用，以及在专用硬件上高效训练大型模型的益处。
Mixed-Precision Training, Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, Hao Wu, 2018 ICLR 2018 DOI: 10.48550/arXiv.1710.03740 - 介绍了混合精度训练的技术，包括使用FP32主权重和FP16计算，BFloat16训练对此框架进行了扩展。
Automatic Mixed Precision training, PyTorch Developers, 2025 (PyTorch.org) - PyTorch官方关于自动混合精度(AMP)的文档，详细说明了如何使用torch.autocast进行高效的BFloat16训练。
High-Performance Mixed-Precision Training for Deep Learning, Minseok Park, George K. Lee, Yunsup Lee, Michael O. Lee, 2019 2019 IEEE High Performance Extreme Computing Conference (HPEC) (IEEE) DOI: 10.1109/HPEC.2019.8916335 - 讨论了在深度学习硬件加速器环境下，混合精度训练（包括BFloat16）的实现和优势。

© 2025 ApX Machine Learning用心打造