趋近智
大师班
在熟悉了核心Transformer架构及其扩展能力后,实际应用常常需要为提高效率或进行专门适配而做更多调整。为满足每个新要求而完全重新训练大型模型,这在计算上成本很高,且常常是不必要的。
本章着重介绍对标准Transformer设计所做的修改,以满足这些需求。我们将考察:
您将了解这些方法背后的原因,明白它们与基础Transformer的结构区别,并研究MoE系统中路由机制和负载均衡等实现时的考量。
14.1 参数高效微调的需求
14.2 Transformer的适配器模块
14.3 专家混合模型 (MoE) 简介
14.4 MoE 中的路由机制
14.5 MoE 层中的负载均衡
© 2026 ApX Machine Learning用心打造