趋近智
我们知道线性回归试图在数据点中找到一条最符合的直线。但到底是什么让一条直线“最符合”呢?我们如何量化 (quantization)某条直线与数据的拟合程度?我们需要一种方法来衡量给定直线相关的误差,或者说“成本”。这种衡量方法帮助我们比较不同的可能直线,并告诉学习算法如何调整直线以改进其拟合。
可以这样考虑:对于我们绘制的穿过数据的任何一条直线,有些点会靠近直线,而另一些点可能会离得更远。实际数据点与我们的直线预测点之间的距离代表了该特定预测的误差。
机器学习 (machine learning)中,为找到表现最优的模型,需要量化 (quantization)模型预测误差的方法。特别是线性回归模型,目标是拟合一条最能代表数据的直线。那么,如何衡量一条直线与数据点的契合程度?如何判断哪条直线表现最优?这要求定义一种方式来量化给定直线的误差,或称为“成本”。这种度量标准有助于比较不同的潜在直线,并指导学习算法调整直线以改进其拟合效果。
误差 = 实际值 - 预测值 误差 =
这种差值通常被称为 残差。正残差表示预测过低,负残差表示预测过高。残差为零表示该数据点的预测是完美的。
垂直虚线显示了一个数据点的误差(残差):实际值(蓝点)与直线预测值(灰线上的点)之间的差。
我们需要一个单一的数字来概括训练集中 所有 数据点的 总 误差。简单地将单个误差 () 相加并没有太大作用,因为正误差和负误差可能会相互抵消,即使直线拟合效果很差,也会给我们一个误导性的很小的总误差。
一种常见的方法是:
这就得到了 均方误差 (MSE),这是回归问题中非常常用的成本函数。
MSE 的公式是:
让我们分解说明:
有时,特别是在统计学环境或其他课程中,你可能会看到公式中使用 而不是 。因子 2 是为了在之后计算导数(特别是梯度下降 (gradient descent))时便于数学运算而添加的,但这不会改变最小误差的位置。为了方便理解这个思想, 代表平均值通常更清楚。
“均方误差为我们提供了一个单一的正值,它表示由特定参数 (parameter) 和 定义的直线与整体数据的拟合程度。完美拟合的 MSE 将为 0(尽管这在数据中很少发生)。拟合效果差的直线将具有较大的 MSE。”
因此,我们学习算法的目标是 找到使 MSE 尽可能低的 和 值。
最小化这个成本函数意味着找到一条直线,它在预测训练数据中的目标值时,平均而言会产生最小的平方误差。在下一节关于梯度下降 (gradient descent)的内容中,我们将看到算法 如何 系统地调整 和 以降低这个成本函数的值,从而有效地找到最符合的直线。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•