趋近智
虽然 AdaGrad 引入了有用的每参数 (parameter)自适应学习率思想,但其累积梯度历史的特定机制导致了一个显著的实际问题。AdaGrad 的更新规则将参数 在时间步 的有效学习率通过该参数历史梯度平方和的平方根的倒数进行缩放:
在此, 是损失函数 (loss function)在时间步 对参数 的梯度, 是全局学习率, 是一个用于数值稳定的小常数,而 是从时间步 1 到 对 的梯度平方和:
核心局限性源于累积项 。因为 总是非负的(作为一个平方值),所以假设梯度非零,在整个训练过程中,和 将单调递增。它从不减小。
随着训练的进行, 不断增大。因此,分母项 也随之增大。这导致有效学习率 单调趋近于零。
示例说明了使用 AdaGrad 时,两个不同参数的有效学习率在训练迭代过程中如何降低。经历较大梯度的参数(参数 1)比梯度较小的参数(参数 2)衰减快得多,但两者都趋近于零。初始全局学习率 。
这种过于激进的衰减会带来问题。在深度学习 (deep learning)中,优化空间复杂且非凸,训练即使在后期也常需要进行探究。如果学习率过早变得小到可以忽略不计,优化器可能实际上在达到满意的最小值之前很久就停止进展。模型的学习能力可能过早地被中止。
虽然 AdaGrad 是朝着自适应学习率迈出的重要一步,但这一局限性促使了算法的出现,这些算法能够在不导致学习率如此激进衰减的情况下调整学习率。像 RMSprop 这样的方法,我们接下来会查看,它们修改了累积机制以阻止这种无限制的增长。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•