趋近智
一个简单的线性回归模型 y=mx+b,使用其成本函数 J(m,b) 来衡量直线与数据的拟合程度。此成本函数的梯度被计算为一个包含偏导数 ∂m∂J 和 ∂b∂J 的向量。这些导数表明了当我们微调 m 或 b 时成本如何变化。
那么,我们究竟如何运用这些梯度来改进模型参数并最小化成本呢?这就是梯度下降算法发挥作用的地方。
可以将成本函数 J(m,b) 看作定义了一个曲面,也许像一个有山有谷的地形。我们的目标是找到这个地形中的最低点,即最小成本。参数 m 和 b 定义了我们在这个曲面上的当前位置。
梯度 ∇J=[∂m∂J,∂b∂J] 在我们当前位置指向的是最陡峭的上升方向,即上坡最快的路径。由于我们想要最小化成本,所以需要下坡。因此,我们朝着与梯度相反的方向迈出一步。
这便引出了梯度下降的核心更新规则。对于每个参数,我们通过减去一个与其偏导数成比例的小量来调整其当前值:
这里,m旧 和 b旧 是更新步骤之前的参数值,而 m新 和 b新 是更新步骤之后的值。梯度 ∂m∂J 和 ∂b∂J 是使用当前值(m旧,b旧)计算的。
请注意更新规则中的符号 α(阿尔法)。这是学习率,我们将在下一节中进行讨论。现在,可以将其视为控制我们下坡所迈步的大小。它是一个小的正数(例如,0.01,0.1)。
对 m 和 b 的这种单一计算和更新构成了梯度下降的一步。
该图显示了梯度下降中单次更新的流程。从当前模型参数开始,使用这些参数计算成本函数的梯度,然后通过沿梯度相反的方向微小移动来更新参数。此过程通常会重复多次。
理解梯度下降是一种迭代算法很重要。通常,一步不足以达到最小成本。我们多次重复这个过程,计算梯度并更新参数。每一步,我们(希望)都会更接近最小化成本函数所需的 m 和 b 值,从而得到一个拟合度更好的线性回归模型。
这一步,在计算出的导数引导下,是许多机器学习模型从数据中学习的基本机制。通过重复调整参数以减少误差(成本)的方向,模型逐步提高其预测能力。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造