所有课程

专家混合模型：核心思想与实践应用

章节 1: 专家混合模型的核心原理

稀疏门控专家混合架构概述

门控网络：公式与作用

专家网络：专精与容量

MoE层的数学表述

负载均衡和辅助损失

MoE 训练中的难题：专家退化

与密集模型扩展的比较

动手实践：实现一个基本 MoE 层

章节 2: 进阶路由机制

Top-k门控及其变体的分析

噪声Top-k门控实现负载均衡

基于哈希的确定性选择路由

Switch Transformer：简化路由

软MoE：可微分路由

路由决策与专长化分析

动手实践：实现不同的路由策略

章节 3: 大规模MoE的训练与优化

分布式训练中的专家并行

结合模型并行、数据并行与专家并行

容量因子及其对性能的影响

缓解路由器Z损失不稳的办法

精度及其作用：BFloat16训练

预训练MoE模型的微调策略

实践：配置分布式训练作业

章节 4: 高效的MoE模型推理

推理面临的困难：内存与延迟

专家卸载到 CPU 或 NVMe

稀疏激活的批处理策略

MoE 模型压缩的模型蒸馏

MoE层量化技术

使用MoE模型进行推测解码

动手实践：构建优化推理管线

章节 5: MoE在现代架构中的应用

将FFN替换为Transformer中的MoE层

MoE 层的位置：频率与部位

视觉Transformer (ViT) 中的MoE

多模态模型中的MoE

架构变体及其特性

分析参数与FLOPs的权衡

实践：修改Transformer模型以使用MoE

动手实践：构建优化推理管线

这部分内容有帮助吗？

参考文献

QLoRA: Efficient Finetuning of Quantized LLMs on Consumer GPUs, Tim Dettmers, Artidoro Pagnoni, Ari Holtzman, Luke Zettlemoyer, 2023 arXiv preprint arXiv:2305.14314 DOI: 10.48550/arXiv.2305.14314 - 介绍了4位NormalFloat (NF4) 量化，这是内存缩减和高效推理的一项核心技术。
Accelerate Documentation - Device Map, Hugging Face, 2024 (Hugging Face) - 关于使用 device_map 将大型模型分布到可用设备（包括CPU卸载）的官方指南。
FastAPI Documentation, Sebastián Ramírez, 2024 - FastAPI的官方文档，该框架用于构建服务优化模型的网络API。

© 2025 ApX Machine Learning用心打造