自回归 (AR) 模型是 ARIMA 家族的基本组成部分之一。AR 模型的核心思想简单而有效:时间序列的当前值可以通过其自身先前值的线性组合来预测。这直接模拟了序列对其过往值的依赖性。定义与结构一个 $p$ 阶的自回归模型,表示为 AR(p),根据前 $p$ 个值($Y_{t-1}, Y_{t-2}, \dots, Y_{t-p}$)预测当前值 $Y_t$。其数学表达式为:$$Y_t = c + \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \dots + \phi_p Y_{t-p} + \epsilon_t$$我们来分析一下这些项:$Y_t$: 时间序列在当前时间点 $t$ 的值。$c$: 常数项(截距)。$\phi_1, \phi_2, \dots, \phi_p$: 这些是自回归系数。它们表示应用于过往值的权重。例如,$\phi_1$ 表示前一个值($Y_{t-1}$)对当前值($Y_t$)的影响程度。$Y_{t-1}, Y_{t-2}, \dots, Y_{t-p}$: 时间序列在之前时间点(滞后 1, 2, ..., p)的值。$p$: AR 模型的阶数,表示回归中包含多少个过往值。$\epsilon_t$: 在时间 $t$ 的误差项。这表示 $Y_t$ 中未被过往值解释的部分。对于标准 AR 模型,此项假定为白噪声,这意味着它具有零均值、常数方差,并且在时间上不相关。直观理解与阶数选择可以把 AR(1) 模型($p=1$)看作:它表明当前值 $Y_t$ 主要依赖于紧邻的前一个值 $Y_{t-1}$,加上一个常数和一些随机噪声:$$Y_t = c + \phi_1 Y_{t-1} + \epsilon_t$$如果 $\phi_1$ 为正,昨天的高值表明今天也可能是高值。如果为负,昨天的高值表明今天可能是低值。AR(2) 模型会使用最近的两个过往值($Y_{t-1}$ 和 $Y_{t-2}$),依此类推。我们如何确定合适的阶数 $p$ 呢?正如第 3 章所讨论的,偏自相关函数(PACF)图在这里非常有帮助。对于一个纯 AR(p) 过程,PACF 图通常表现出:直至滞后 $p$ 的显著相关性。在滞后 $p$ 之后急剧截断,随后的偏自相关值接近于零(在置信区间内)。在你的(平稳)时间序列的 PACF 中观察到这种模式,表明 AR(p) 模型可能是一个好的起点。{"layout": {"title": "AR(1) 过程示例 (phi=0.7)", "xaxis": {"title": "时间"}, "yaxis": {"title": "值"}, "margin": {"l": 40, "r": 20, "t": 50, "b": 40}, "template": "plotly_white"}, "data": [{"type": "scatter", "mode": "lines+markers", "x": [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15], "y": [5.0, 4.1, 3.5, 2.0, 1.8, 1.5, 0.5, 0.8, 0.1, -0.5, 0.2, -0.1, 0.4, 0.9, 0.5], "marker": {"color": "#228be6"}, "line": {"color": "#228be6"}}]}一个表现出 AR(1) 行为的示例时间序列。请注意,连续点在数值上趋于相对接近,反映了前一点的影响。平稳性要求需要记住,标准 AR 模型假定时间序列 $Y_t$ 是平稳的。它的均值、方差和自相关结构不应随时间变化。如果你的数据是非平稳的(例如,表现出趋势或季节性),在应用 AR 模型之前,你通常需要对其进行变换,通常通过差分(如第 2 章所述)。这个差分步骤是 ARIMA 中由 'I' 表示的“积分”部分,我们将在本章稍后将其组合。AR 模型捕获时间序列数据中一种特定类型的依赖结构。它们通过解释过往值如何影响当前来为更复杂的模型奠定基础。接下来,我们将查看移动平均 (MA) 模型,这类模型侧重于过往预测误差的作用。