趋近智
大师班
训练大型语言模型面临着特有的优化难题,因为它们规模庞大且计算需求高。标准的优化方法通常需要进行调整,以便有效地训练LLMs。本章将讲解常用到的优化算法和策略。
我们会先简要回顾梯度下降方法,然后把重点放在自适应优化器上,例如Adam和AdamW,并解释解耦权重衰减的原理。您将学习如何实现包含预热和衰减阶段的常见学习率调度策略 (例如:ηt=schedule(step))。我们还会介绍梯度裁剪,这是一种常用来防止梯度爆炸并提升训练稳定性的方法,通常通过重新缩放那些范数超出阈值c的梯度来实现:g←∥g∥cg if ∥g∥>c 最后,我们将谈到选择优化器重要超参数的实用指导,例如学习率η、Adam的动量项(β1,β2)、数值稳定性项ϵ以及权重衰减系数λ。
17.1 梯度下降算法变体回顾 (SGD, 动量)
17.2 自适应优化器:Adam和AdamW
17.3 学习率调度策略
17.4 梯度裁剪方法
17.5 选择优化器超参数 (lr, betas, eps, weight_decay)
© 2026 ApX Machine Learning用心打造