尽管决定系数,即R平方($R^2$),为我们提供了一个方便的百分比,表示模型解释的方差比例,但理解其局限性很重要。仅仅依赖$R^2$有时可能会描绘出回归模型表现的不完整甚至具有误导性的情况。R平方可能被人为夸大一个重要问题是,当你向模型添加更多自变量(预测变量或特征)时,$R^2$几乎总是增加(或保持不变,但从不减少)。即使你添加的变量与你试图预测的目标变量没有实际关系,这种情况也会发生。试想一下:添加更多变量会赋予模型更大的灵活性来拟合训练数据,这可能会捕获噪声或随机波动,而不是真实模式。一个包含许多不相关变量的模型在它训练过的数据上可能会显示出较高的$R^2$,但在对新的、未见过的数据进行预测时,其表现可能不佳。这鼓励了构建泛化能力差的过度复杂模型。注:存在更进阶的指标,例如调整R平方,它会试图对那些没有显著改善模型的变量进行分数上的惩罚。然而,对于这个入门课程来说,主要的要点是警惕仅仅通过增加更多输入来追求高$R^2$。高R平方不保证模型好高$R^2$值并不自动意味着你的模型是“好”的或适合你的任务。原因如下:偏差: R平方不会告诉你模型的预测是否系统性地过高或过低(有偏差)。一个模型可能有高$R^2$,但持续高估或低估实际值。需要结合MAE或RMSE等其他指标,以及可视化预测误差(残差)来检查偏差。模型假设: 许多回归技术依赖于数据的一些假设(例如线性)。R平方不会告诉你这些假设是否满足。你可能通过一个根本上误解数据潜在关系的模型获得高$R^2$。同样,可视化检查,例如绘制预测值与实际值的图,通常是必要的。过拟合: 如前面提到的,模型可能极好地拟合训练数据,导致高$R^2$,但在新数据上表现极差。这被称为过拟合。单独在训练数据上计算的R平方无法检测到这一点。在单独的测试集上评估是必要的。R平方不意味着因果关系或正确性R平方衡量的是模型捕获的相关强度,而不是关系是否合理或一个变量是否导致另一个变量。你可能会发现两个变量之间有高$R^2$,但它们只是偶然相关,或者都受到第三个未观察到的因素影响。它量化的是拟合程度,而不是模型的理论合理性或因果有效性。解释时语境很重要什么样的$R^2$分数算作“好”,高度依赖于问题的语境:在物理学或工程学等测量精确的领域,你可能预期非常高的$R^2$值(例如,高于0.95)。在社会科学、经济学或市场营销等涉及人类行为且数据本身具有噪声的领域,0.5甚至0.3的$R^2$可能被认为相当不错或有参考价值。此外,$R^2$不会告诉你预测误差(由MAE或RMSE衡量)对于你的特定应用是否可接受地小。一个模型可以解释90%的方差($R^2 = 0.9$),但其平均误差(MAE)对于实际使用来说可能仍然太大。明智使用R平方R平方是一个有价值的指标,用于理解回归模型解释的方差比例。然而,它不应该是你考虑的唯一指标。始终结合MAE、MSE和RMSE等误差指标对其进行评估,并使用可视化图表(例如预测值与实际值的散点图,或残差图)来获得对模型优点和缺点的更全面理解。将$R^2$看作判断模型表现所需的几个重要指标之一。