趋近智
所有课程
4.1 推理面临的困难:内存与延迟
4.2 专家卸载到 CPU 或 NVMe
4.3 稀疏激活的批处理策略
4.4 MoE 模型压缩的模型蒸馏
4.5 MoE层量化技术
4.6 使用MoE模型进行推测解码
4.7 动手实践:构建优化推理管线
© 2025 ApX Machine Learning