所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

专家卸载到 CPU 或 NVMe

全新 · 开源

Kerb - 大语言模型开发工具包

用于构建生产级 LLM 应用的 Python 工具包。提供提示词、RAG、智能体、结构化输出和多提供商支持等模块化实用工具。

这部分内容有帮助吗？

参考文献

Big Model Inference, Hugging Face, 2024 (Hugging Face) - Hugging Face Accelerate 的官方文档，解释了将大型模型参数卸载到 CPU 和磁盘以在内存受限硬件上进行推理的实用方法。
GPUDirect Storage, NVIDIA, 2024 (NVIDIA) - NVIDIA 关于 GPUDirect Storage 的技术概述，解释了它如何实现 NVMe 存储和 GPU 内存之间的直接数据路径，提高卸载的数据传输速度。

© 2025 ApX Machine Learning用心打造