趋近智
大师班
11.1 神经网络语言模型的缩放定律
11.2 深度与宽度取舍
11.3 激活函数选择 (ReLU, GeLU, SwiGLU)
11.4 规范化层放置位置(前置LN vs. 后置LN)
11.5 稀疏注意力机制简介
© 2025 ApX Machine Learning