趋近智
参数 (parameter) 在核心的梯度下降 (gradient descent)更新规则 中扮演着重要作用。这个参数被称为学习率。它决定了算法在每次迭代中沿着下坡方向迈出的步长大小。你可以想象成,在下坡时根据坡度(梯度)调整你的步幅。
梯度 指示了最陡峭的上升方向。由于我们希望最小化成本函数 ,因此我们朝着相反的方向移动,这就是更新规则中出现负号的原因。学习率 随后调整这一步的大小。它是一个正的标量值。
选择一个合适的学习率对于梯度下降的表现非常关键。
的选择直接影响收敛速度以及算法是否能收敛。
如果学习率 过小: 梯度下降 (gradient descent)在每次迭代中会迈出非常小的步子。这意味着它需要很多次迭代才能达到最小值,这可能导致训练过程非常缓慢。虽然它很可能会最终收敛,但对于大型数据集或复杂模型来说,所需时间可能不切实际。
如果学习率 过大: 梯度下降可能会越过最小值。想象一下大步跳下山坡;你可能会直接跳过最低点,落在另一侧,甚至可能比你开始的位置更高。在这种情况下,成本函数 可能会在最小值附近剧烈震荡或未能下降,在最坏的情况下,它可能完全发散,成本随每次迭代而增加。
以下图表展示了不同的学习率如何影响成本函数随迭代的收敛情况。
梯度下降在不同学习率下的收敛表现。小的 会导致收敛缓慢,大的 会导致震荡或发散,而选择得当的 则能高效收敛。
那么,如何找到一个好的 值呢?没有一个单一的神奇数字,理想的学习率通常取决于具体问题、数据集和模型架构。
找到一个合适的学习率是有效应用梯度下降 (gradient descent)的基本组成部分。虽然我们通常从固定学习率开始,但更高级的优化算法(超出本节讨论范围)会采用技术在训练过程中调整学习率。目前,理解这个单一参数 (parameter)的影响是掌握基于梯度的优化方法的重要一步。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•