我们已学习如何使用最小二乘法对数据进行直线拟合,以及如何使用R2等指标评估其对关系的表示程度。但我们对估算的系数(β^0,β^1)以及模型所做的预测能有多少信心呢?简单的线性回归模型y=β0+β1x+ϵ依赖于多项假设,主要针对误差项ϵ。这些假设很重要,因为它们是模型相关统计检验和置信区间的依据。如果这些假设不成立,我们的推断可能会有误。
让我们看看简单线性回归的各项标准假设:
线性关系
这是最基本的假设。它指预测变量x与结果变量y的均值之间的关系是线性的。数学上表示为E[Y∣X=x]=β0+β1x。
- 重要性: 如果真实关系是非线性的,拟合一条直线将导致模型效果不佳,并在x的不同范围系统性地高估或低估预测值。
- 如何检查:
- 散点图: 绘制y对x的散点图。查看是否有大致的线性趋势。
- 残差图: 绘制残差(ei=yi−y^i)对预测变量x(或拟合值y^i)的图。如果线性假设成立,残差应随机分布在水平线0附近。可识别的模式(如曲线)表明假设被违反。
- 如果假设被违反怎么办? 考虑对变量进行变换(例如,log(y),x),或使用更复杂的模型,如多项式回归或其他非线性方法。
误差独立性
这项假设指出误差项(ϵi)相互独立。换句话说,一个观测值的误差不应提供关于另一个观测值误差的信息。
- 重要性: 系数的标准误差计算和假设检验都要求独立性。误差相关性常出现在时间序列数据(一个时间点的观测值可能与下一个时间点相关)或聚类数据中。
- 如何检查:
- 残差图(与时间或顺序对照): 如果数据有时间序列或顺序,将残差与该序列一起绘制。寻找正负残差连续出现或周期性行为等模式。随机分布支持独立性。
- 背景: 考虑数据是如何收集的。观测值之间存在关联是否合理?
- 统计检验: 诸如德宾-沃森检验等方法可以正式检查自相关性(在时间序列中常见)。
- 如果假设被违反怎么办? 标准误差可能会被低估,导致置信区间过窄,并可能从假设检验中得出不正确的结论(例如,发现某个变量显著而实际上并非如此)。可能需要时间序列模型或考虑数据结构的方法。
误差正态性
假设误差项(ϵi)服从均值为零的正态分布。
- 重要性: 这项假设主要用于确保假设检验(如系数的t检验)和置信区间构建的有效性,尤其是在样本量较小时。最小二乘估计本身不严格要求正态性,但推断过程需要。
- 如何检查:
- 残差直方图: 检查残差分布是否大致呈钟形并以零为中心。
- Q-Q图(分位数-分位数图): 该图比较残差的分位数与理论正态分布的分位数。如果残差呈正态分布,点应大致落在一条对角直线上。偏离表明非正态性。
Q-Q图示例,显示大致的正态性(点靠近虚线)。
- 正式检验: 可以使用诸如Shapiro-Wilk或Kolmogorov-Smirnov检验,但视觉检查通常提供更多信息,特别是在偏离的类型方面。
- 如果假设被违反怎么办? P值和置信区间可能不准确。然而,对于大样本量,中心极限定理通常能保证估计系数的抽样分布近似正态,即使误差本身不是正态分布。即便如此,严重的非正态性仍可能带来问题。对y进行变换可能有所帮助。
同方差性(误差方差不变)
这项假设,也称为方差齐性,指出误差项(ϵi)的方差在预测变量x的所有水平上都是恒定的。即,对于所有i,有Var(ϵi)=σ2。反之则是异方差性,即误差方差随x变化。
- 重要性: 最小二乘法对所有观测值赋予相同权重。如果方差不同(例如,对于较大的x值,预测值的散布范围更广),系数的标准误差将变得不可靠,影响假设检验和置信区间。系数估计本身仍是无偏的,但它们不再是无偏估计量中最有效(最小方差)的。
- 如何检查:
- 残差图(与拟合值或预测变量对照): 绘制残差(ei)对拟合值(y^i)或预测变量(xi)的图。观察点在零线周围的分布是否一致。漏斗状(方差随拟合值/预测变量的增大或减小而变化)表明存在异方差性。
残差图显示方差不变(绿色,良好)与方差增大(红色,异方差)的对比。
- 正式检验: 诸如Breusch-Pagan或White检验等方法可以正式检查异方差性。
- 如果假设被违反怎么办? 使用变换(例如,如果方差随均值增大,则对y进行对数变换),使用加权最小二乘法(WLS),即方差较小的观测值获得更大的权重,或使用调整异方差性的标准误差(Huber-White标准误差)。
"检查这些假设,通常通过残差的图形分析进行,是回归建模过程的重要环节。虽然没有数据能完美满足所有假设,但了解潜在的违反情况有助于您谨慎解释模型结果,并在必要时选择适当的补救措施或替代建模方法。Python中的Statsmodels等库提供了生成这些诊断图的工具。"