回归分析帮助我们量化 (quantization)和理解变量间的关系。简单线性回归(SLR)专门针对单个因变量(或响应变量)如何随着另一个单一自变量(或预测变量)的变化而建立模型。
设想你有一些关于两个变量的数据,例如,工作年限 (x) 和薪资 (y)。你可能认为,随着工作年限增加,薪资也倾向于增加。简单线性回归提供了一种正式的方法来为这种推测的线性关系建立模型。
模型基础
“从根本上说,简单线性回归假设自变量 x 和因变量 y 之间的关系可以用一条直线来近似。然而,数据很少完美地落在一条线上。几乎总会有一些散布或变异。为了解释这一点,简单线性回归的理论模型写作:”
y=β0+β1x+ϵ
让我们解析这个方程:
- y: 这是因变量,我们试图预测或解释的结果(例如,薪资)。
- x: 这是自变量,我们用来解释 y 的预测变量(例如,工作年限)。
- β0 (Beta-naught): 这是截距参数 (parameter)。它表示当 x 等于零时 y 的理论平均值。在某些情况下,截距可能没有直接的实际意义(例如,零工作年限可能没有意义或不在数据中),但它在数学上是必需的,以正确确定直线的位置。
- β1 (Beta-one): 这是斜率参数。它表示当 x 增加一个单位时,y 平均值的理论变化。如果 β1 为正,则表示正向线性关系(当 x 增加时,y 倾向于增加)。如果 β1 为负,则表示负向线性关系(当 x 增加时,y 倾向于减少)。如果 β1 为零,则表示 x 和 y 之间没有线性关系。β1 的绝对值表示线性关联的强度。
- ϵ (Epsilon): 这是误差项或残差。它表示 y 的实际观测值与线性关系(β0+β1x)预测值之间的差异。此项包含了 y 中所有未被与 x 的线性关系解释的变异性。这可能是由于影响 y 的其他未测量因素、固有的随机性或测量误差。我们通常对这些误差做出假设,多数情况是它们是独立的,均值为零,并且具有恒定的方差(σ2)。
可以将 β0+β1x 部分看作关系中确定的线性组成部分,而 ϵ 则是随机的、未解释的组成部分。
从总体到样本
方程 y=β0+β1x+ϵ 描述了整个总体的理论关系。在实践中,我们很少能获得总体数据。相反,我们使用从总体中抽取的样本。我们的目标是使用样本数据来估计未知的总体参数 (parameter) β0 和 β1。
我们将从样本数据计算得到的估计值表示为 b0(有时也作 β^0)和 b1(或 β^1)。基于样本的估计回归线如下:
y^=b0+b1x
在这里,y^(读作“y-hat”)表示基于我们的样本估计,给定 x 值时 y 的预测值。我们样本中一个观测值 yi 与其对应的预测值 y^i 之间的差值是样本残差,ei=yi−y^i。这些样本残差 ei 是我们可观测的、用来代替不可观测的理论误差 ϵi 的量。
接下来的问题(我们将在下一节讨论)是如何根据我们的样本数据点 (xi,yi) 找到 b0 和 b1 的“最佳”值。
线性关系的可视化
散点图是在拟合模型之前,显示数据和潜在线性关系的理想方式。简单线性回归主要是试图找到一条最能穿过散点图上数据点云的直线。
一个散点图,显示了单个数据点(蓝点)和一条表示简单线性回归模型 y^=b0+b1x 的潜在直线(红色虚线)。目标是找到一条使直线与点之间的总距离最小的线。
理解这个基本的模型结构非常重要。它不仅使我们能够对简单关系进行建模,而且也支撑着更复杂的回归方法,包括多元线性回归(使用多个预测变量)和多项式回归(模拟曲线),这些方法在机器学习 (machine learning)中经常用到。