趋近智
大师班
在构建了一个Transformer模型之后,下一步是要弄明白如何有效地增大其规模。单纯地增大模型规模并非总是最佳途径;随着模型增长,特定的架构选择对性能、训练稳定性和计算需求有很大影响。
本章侧重讨论Transformer模型规模化过程中的设计考量。我们将讨论:
在本章结束时,你将对设计更大、能力更强的Transformer模型时可用的架构调整手段,以及每种选择所关联的权衡取舍,有更清楚的认识。
11.1 神经网络语言模型的缩放定律
11.2 深度与宽度取舍
11.3 激活函数选择 (ReLU, GeLU, SwiGLU)
11.4 规范化层放置位置(前置LN vs. 后置LN)
11.5 稀疏注意力机制简介
© 2026 ApX Machine Learning用心打造