趋近智
梯度指向成本函数增长最快的方向。然而,我们在机器学习 (machine learning)优化中的目标通常相反:我们希望最小化成本函数,以找到能提供最佳表现的模型参数 (parameter)。那么,梯度如何能帮助我们下坡而不是上坡呢?
想象你正站在一个山坡上,周围浓雾弥漫。你看不见谷底(最小值),但能感觉到脚下地面的坡度。要下山,最直观的做法是确定最陡峭的下降方向,然后朝那个方向迈出一步。你重复这个过程,不断检查坡度并向下迈步,希望能最终到达底部。
梯度下降 (gradient descent)的工作原理与此非常相似。在我们的参数空间中,任何点处可以测量的“坡度”由梯度给出。由于梯度指向上坡(最陡峭的上升方向),因此最陡峭的下降方向就是其反方向:。
因此,梯度下降的核心思想是,从参数的某个初始猜测开始,然后通过朝着负梯度方向迈出小步来迭代更新它们。理想情况下,每一步都应使我们更接近成本函数最小的点。
设想一个依赖于两个参数和的简单成本函数。我们可以将此函数可视化为一个曲面,或者更常见地,使用等高线来表示,其中每条线代表成本相同的点。
一张显示成本函数等高线的等高线图。红线描绘了梯度下降所走的步长,从一个初始点开始,并朝着最小值(绿色“x”)移动,始终垂直于等高线(即沿着负梯度的方向)。
每一步都包含两个部分:
每次迭代中迈出步长的大小是一个重要因素。如果步长太大,我们可能会越过最小值并出现不规则的震荡,甚至可能发散。如果步长太小,算法可能需要很长时间才能达到最小值。这个步长由一个称为学习率的参数控制,我们很快将详细讨论它。
本质上,梯度下降提供了一种自动化的方式,来沿着成本函数的“山坡”走下去。通过重复计算局部坡度(梯度)并朝着向下方向迈出一步,它在参数空间中移动以找到使成本最小的值,从而优化机器学习模型。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•