趋近智
尽管决定系数,即R平方(),为我们提供了一个方便的百分比,表示模型解释的方差比例,但理解其局限性很重要。仅仅依赖有时可能会描绘出回归模型表现的不完整甚至具有误导性的情况。
一个重要问题是,当你向模型添加更多自变量(预测变量或特征)时,几乎总是增加(或保持不变,但从不减少)。即使你添加的变量与你试图预测的目标变量没有实际关系,这种情况也会发生。
试想一下:添加更多变量会赋予模型更大的灵活性来拟合训练数据,这可能会捕获噪声或随机波动,而不是真实模式。一个包含许多不相关变量的模型在它训练过的数据上可能会显示出较高的,但在对新的、未见过的数据进行预测时,其表现可能不佳。这鼓励了构建泛化能力差的过度复杂模型。
注:存在更进阶的指标,例如调整R平方,它会试图对那些没有显著改善模型的变量进行分数上的惩罚。然而,对于这个入门课程来说,主要的要点是警惕仅仅通过增加更多输入来追求高。
高值并不自动意味着你的模型是“好”的或适合你的任务。原因如下:
R平方衡量的是模型捕获的相关强度,而不是关系是否合理或一个变量是否导致另一个变量。你可能会发现两个变量之间有高,但它们只是偶然相关,或者都受到第三个未观察到的因素影响。它量化 (quantization)的是拟合程度,而不是模型的理论合理性或因果有效性。
什么样的分数算作“好”,高度依赖于问题的语境:
此外,不会告诉你预测误差(由MAE或RMSE衡量)对于你的特定应用是否可接受地小。一个模型可以解释90%的方差(),但其平均误差(MAE)对于实际使用来说可能仍然太大。
R平方是一个有价值的指标,用于理解回归模型解释的方差比例。然而,它不应该是你考虑的唯一指标。始终结合MAE、MSE和RMSE等误差指标对其进行评估,并使用可视化图表(例如预测值与实际值的散点图,或残差图)来获得对模型优点和缺点的更全面理解。将看作判断模型表现所需的几个重要指标之一。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造