我们已学习如何使用最小二乘法对数据进行直线拟合,以及如何使用$R^2$等指标评估其对关系的表示程度。但我们对估算的系数($\hat{\beta}_0, \hat{\beta}_1$)以及模型所做的预测能有多少信心呢?简单的线性回归模型$y = \beta_0 + \beta_1 x + \epsilon$依赖于多项假设,主要针对误差项$\epsilon$。这些假设很重要,因为它们是模型相关统计检验和置信区间的依据。如果这些假设不成立,我们的推断可能会有误。让我们看看简单线性回归的各项标准假设:线性关系这是最基本的假设。它指预测变量$x$与结果变量$y$的均值之间的关系是线性的。数学上表示为$E[Y | X=x] = \beta_0 + \beta_1 x$。重要性: 如果真实关系是非线性的,拟合一条直线将导致模型效果不佳,并在$x$的不同范围系统性地高估或低估预测值。如何检查:散点图: 绘制$y$对$x$的散点图。查看是否有大致的线性趋势。残差图: 绘制残差($e_i = y_i - \hat{y}_i$)对预测变量$x$(或拟合值$\hat{y}_i$)的图。如果线性假设成立,残差应随机分布在水平线0附近。可识别的模式(如曲线)表明假设被违反。如果假设被违反怎么办? 考虑对变量进行变换(例如,$\log(y)$,$\sqrt{x}$),或使用更复杂的模型,如多项式回归或其他非线性方法。误差独立性这项假设指出误差项($\epsilon_i$)相互独立。换句话说,一个观测值的误差不应提供关于另一个观测值误差的信息。重要性: 系数的标准误差计算和假设检验都要求独立性。误差相关性常出现在时间序列数据(一个时间点的观测值可能与下一个时间点相关)或聚类数据中。如何检查:残差图(与时间或顺序对照): 如果数据有时间序列或顺序,将残差与该序列一起绘制。寻找正负残差连续出现或周期性行为等模式。随机分布支持独立性。背景: 考虑数据是如何收集的。观测值之间存在关联是否合理?统计检验: 诸如德宾-沃森检验等方法可以正式检查自相关性(在时间序列中常见)。如果假设被违反怎么办? 标准误差可能会被低估,导致置信区间过窄,并可能从假设检验中得出不正确的结论(例如,发现某个变量显著而实际上并非如此)。可能需要时间序列模型或考虑数据结构的方法。误差正态性假设误差项($\epsilon_i$)服从均值为零的正态分布。重要性: 这项假设主要用于确保假设检验(如系数的t检验)和置信区间构建的有效性,尤其是在样本量较小时。最小二乘估计本身不严格要求正态性,但推断过程需要。如何检查:残差直方图: 检查残差分布是否大致呈钟形并以零为中心。Q-Q图(分位数-分位数图): 该图比较残差的分位数与理论正态分布的分位数。如果残差呈正态分布,点应大致落在一条对角直线上。偏离表明非正态性。{"layout": {"title": {"text": "Q-Q图:残差与正态分位数"}, "xaxis": {"title": "理论正态分位数"}, "yaxis": {"title": "样本残差分位数"}, "width": 500, "height": 400, "margin": {"l": 50, "r": 20, "t": 50, "b": 50}, "shapes": [{"type": "line", "x0": -3, "y0": -3, "x1": 3, "y1": 3, "line": {"color": "#f03e3e", "width": 2, "dash": "dash"}}]}, "data": [{"type": "scatter", "mode": "markers", "x": [-2.5, -1.5, -0.5, 0.5, 1.5, 2.5], "y": [-2.3, -1.6, -0.4, 0.6, 1.4, 2.6], "marker": {"color": "#228be6"}}]}Q-Q图示例,显示大致的正态性(点靠近虚线)。正式检验: 可以使用诸如Shapiro-Wilk或Kolmogorov-Smirnov检验,但视觉检查通常提供更多信息,特别是在偏离的类型方面。如果假设被违反怎么办? P值和置信区间可能不准确。然而,对于大样本量,中心极限定理通常能保证估计系数的抽样分布近似正态,即使误差本身不是正态分布。即便如此,严重的非正态性仍可能带来问题。对$y$进行变换可能有所帮助。同方差性(误差方差不变)这项假设,也称为方差齐性,指出误差项($\epsilon_i$)的方差在预测变量$x$的所有水平上都是恒定的。即,对于所有$i$,有$Var(\epsilon_i) = \sigma^2$。反之则是异方差性,即误差方差随$x$变化。重要性: 最小二乘法对所有观测值赋予相同权重。如果方差不同(例如,对于较大的$x$值,预测值的散布范围更广),系数的标准误差将变得不可靠,影响假设检验和置信区间。系数估计本身仍是无偏的,但它们不再是无偏估计量中最有效(最小方差)的。如何检查:残差图(与拟合值或预测变量对照): 绘制残差($e_i$)对拟合值($\hat{y}_i$)或预测变量($x_i$)的图。观察点在零线周围的分布是否一致。漏斗状(方差随拟合值/预测变量的增大或减小而变化)表明存在异方差性。{"layout": {"title": {"text": "残差图:检查同方差性"}, "xaxis": {"title": "拟合值 (ŷ)"}, "yaxis": {"title": "残差 (e)"}, "width": 500, "height": 400, "margin": {"l": 50, "r": 20, "t": 50, "b": 50}, "shapes": [{"type": "line", "x0": 0, "y0": 0, "x1": 10, "y1": 0, "line": {"color": "#adb5bd", "width": 1, "dash": "dash"}}]}, "data": [{"name": "同方差 (好)", "type": "scatter", "mode": "markers", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9], "y": [0.5, -0.8, 0.2, 1.1, -0.1, -0.9, 0.6, -0.3, 0.7], "marker": {"color": "#37b24d"}}, {"name": "异方差 (差)", "type": "scatter", "mode": "markers", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9], "y": [0.1, -0.2, 0.5, -0.8, 1.5, -1.8, 2.5, -2.2, 3.0], "marker": {"color": "#f03e3e"}}]}残差图显示方差不变(绿色,良好)与方差增大(红色,异方差)的对比。正式检验: 诸如Breusch-Pagan或White检验等方法可以正式检查异方差性。如果假设被违反怎么办? 使用变换(例如,如果方差随均值增大,则对$y$进行对数变换),使用加权最小二乘法(WLS),即方差较小的观测值获得更大的权重,或使用调整异方差性的标准误差(Huber-White标准误差)。"检查这些假设,通常通过残差的图形分析进行,是回归建模过程的重要环节。虽然没有数据能完美满足所有假设,但了解潜在的违反情况有助于您谨慎解释模型结果,并在必要时选择适当的补救措施或替代建模方法。Python中的Statsmodels等库提供了生成这些诊断图的工具。"