当回归线 y^=β^0+β^1x 被拟合到数据时(例如使用最小二乘法),随之而来的问题是:该拟合效果如何?仅仅通过寻找使平方误差和最小的线,并不能完全说明这些误差的大小,也无法得知模型实际的预测能力。为了定量评估模型的性能,需要使用特定的衡量指标。均方误差(MSE)和R平方(R2)是评估模型表现的主要指标。
均方误差 (MSE)
均方误差是衡量观测到的实际值 (yi) 与模型预测值 (y^i) 之间平均差异的直接方法。它表示这些值之间平方差的平均值,通常称为平方残差或平方误差。
数学上,对于 n 个数据点,MSE的计算方式为:
MSE=n1∑i=1n(yi−y^i)2
说明:
- yi 是第 i 个观测值的因变量实际值。
- y^i 是使用回归线对第 i 个观测值预测的因变量值。
- n 是观测值的总数。
解释:
- 大小: 较小的MSE表示模型的预测值平均而言更接近实际值,说明拟合效果更好。MSE为0表示完美拟合,即所有预测值与实际值完全一致(这在实际中很少见)。
- 单位: MSE以因变量(y)的平方单位衡量。例如,如果你预测的房价单位是美元,那么MSE的单位将是美元的平方。这会使直接理解其含义变得困难。
- 敏感度: 因为误差被平方,较大的误差对MSE的影响会不成比例地增大。这表明该指标对异常值很敏感;少数远离回归线的点会显著提高MSE。
最小二乘法本身就是为了使平方误差和 (SSE),即 ∑(yi−y^i)2,最小化而设计的。MSE只是这个和除以数据点的数量,提供了一个平均的衡量指标。
均方根误差 (RMSE)
为解决MSE平方单位带来的理解困难,通常使用均方根误差(RMSE)。它只是MSE的平方根:
RMSE=MSE=n1∑i=1n(yi−y^i)2
解释:
- 大小: 与MSE类似,较低的RMSE表示更好的拟合效果。
- 单位: RMSE的主要优点是其单位与因变量(y)相同。如果预测房价的单位是美元,RMSE的单位也是美元。这使得在问题背景下理解典型预测误差的大小变得更容易。例如,RMSE为5000美元意味着模型的预测通常会有大约5000美元的偏差。
- 敏感度: 尽管不如MSE那样,但由于误差的平方计算,RMSE仍对异常值敏感。
该图显示了数据点、拟合的回归线,并突出了 x=4 时的一个残差 (yi−y^i)。MSE和RMSE是根据所有此类垂直距离的平方值计算得出的。
R平方 (R2) - 决定系数
尽管MSE和RMSE提供了绝对意义上的平均预测误差衡量,但它们没有说明模型成功捕获了因变量变异性的多少比例。在这点上,R平方(R2),也称为决定系数,就派上用场了。
R2 衡量模型中包含的自变量 (x) 能解释因变量 (y) 总方差的多少。它将模型误差的方差与因变量的总方差进行比较。
R2 的公式是:
R2=1−SStotSSres
说明:
- SSres 是残差平方和(或误差平方和,SSE):SSres=∑i=1n(yi−y^i)2。这表示模型未解释的方差。
- SStot 是总平方和:SStot=∑i=1n(yi−yˉ)2,其中 yˉ 是实际 y 值的平均值。这表示因变量 y 的总方差。
解释:
- 范围: R2 通常介于0到1之间。
- 含义:
- R2 为1表示回归线完美拟合数据,解释了 y 中100%的方差。
- R2 为0表示模型无法解释 y 的任何方差。模型的预测效果不比简单地将平均值 yˉ 作为所有观测值的预测值更好。
- R2 为0.65意味着模型中因变量 y 的总变异性的65% 可以由其与自变量 x 的线性关系来解释。剩余的35% 模型未能解释。
- 负值: 尽管不常见,但如果所选模型拟合数据效果比使用均值 yˉ 的水平线更差,则 R2 可能为负值。这通常表明模型选择非常不当。
局限性:
- R2 并不能说明回归模型是否合适。高 R2 不保证模型符合线性回归的基本假定。务必检查残差图。
- 当模型中添加更多预测变量时,R2 几乎总会增加,即使这些变量实际上没有用处。这在比较具有不同数量预测变量的模型时可能会产生误导。(调整R平方是一个相关指标,在多元回归中常用于惩罚不必要变量的加入)。
指标的选择与使用
MSE、RMSE和 R2 对模型表现提供了不同的视角。
- 当你需要了解因变量原始单位中预测误差的典型大小时(RMSE由于易于理解通常更受青睐),请使用MSE或RMSE。它们适用于比较在相同数据集上预测相同结果的不同模型。
- 当你想了解模型解释的方差比例时,请使用R平方,它提供了一个相对的拟合优度衡量,通常以百分比表示。
通常建议查看多个指标,以及残差图等可视化结果,以全面了解你的回归模型的表现和局限性,然后再得出结论或基于此做出决策。