趋近智
“虽然简单线性回归帮助我们理解单个预测变量与响应之间的关系,但许多现象同时受到多种因素的影响。例如,预测房价可能需要考虑的不仅是房屋面积,还有卧室数量、位置、房龄等等。多元线性回归将我们学过的思想用于处理这些有多个预测变量的情况。”
多元线性回归是一种线性回归模型,它通过扩展简单线性回归方程,纳入多个预测变量来处理复杂现象。如果我们有 p 个预测变量 x1,x2,...,xp,多元线性回归模型定义如下:
y=β0+β1x1+β2x2+...+βpxp+ϵ我们来分解一下这些组成部分:
该模型表示预测变量与响应变量之间的线性关系。简单线性回归描述一条直线,而有两个预测变量的多元线性回归描述一个平面,当预测变量多于两个时,则描述高维空间中的一个超平面。
多元线性回归模型通过估计系数 (β1,...,βp) 和截距 (β0),将多个预测变量 (x1,x2,...,xp) 与单个响应变量 (y) 关联起来。
多元回归中系数的解释需要仔细考量。每个系数 βj 表示当对应预测变量 xj 增加一个单位时,响应变量 y 的期望变化,前提是模型中的所有其他预测变量保持不变。
这种“保持其他变量不变”的方面很重要。多元回归模型 y=β0+β1x1+β2x2+ϵ 中 β1 的值可能与简单线性回归 y=β0+β1x1+ϵ 中 x1 的系数不同。这是因为多元回归系数考虑了 x2 对 y 的影响,从而独立出了 x1 的独特贡献。
就像在简单线性回归中一样,系数 (β0,β1,...,βp) 通常使用最小二乘法进行估计。目标保持不变:找到使观测值 (yi) 与模型预测值 (y^i) 之间的平方差之和最小化的系数。虽然数学计算涉及矩阵代数(尤其当 p>1 时),但原理是相同的。幸好,Scikit-learn 和 Statsmodels 等库为我们处理了这些计算。
模型评估也使用常用的指标:
然而,R2 在多元回归背景下有一个局限:当你向模型中添加更多预测变量时,它总是增加或保持不变,即使这些预测变量是不相关的。这可能产生误导。
为此,我们经常使用调整R平方。该指标通过惩罚不显著改善模型拟合的额外预测变量的加入来修正 R2。调整R平方在比较预测变量数量不同的模型时,提供更公平的评估。它仅当添加的变量对模型的改进超出偶然性预期时才会增加。
简单线性回归的基本假设通常也适用于多元线性回归:
此外,多元回归引入了一个新的潜在问题:
构建好用的多元回归模型通常涉及选择最相关的预测变量(特征选择)、检查预测变量之间的相互作用(其中一个预测变量的效果取决于另一个的水平),以及验证模型假设。
本概述为应用这些思想奠定了基础。实际中,您将使用软件工具来拟合这些模型,解释它们的输出,并发现和处理潜在问题,从而能够从数据中构建更全面的预测模型。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造