自回归 (autoregressive) (AR) 模型是 ARIMA 家族的基本组成部分之一。AR 模型的核心思想简单而有效:时间序列的当前值可以通过其自身先前值的线性组合来预测。这直接模拟了序列对其过往值的依赖性。
定义与结构
一个 p 阶的自回归 (autoregressive)模型,表示为 AR(p),根据前 p 个值(Y_t−1,Y_t−2,dots,Y_t−p)预测当前值 Y_t。其数学表达式为:
Yt=c+ϕ1Yt−1+ϕ2Yt−2+⋯+ϕpYt−p+ϵt
我们来分析一下这些项:
- Y_t: 时间序列在当前时间点 t 的值。
- c: 常数项(截距)。
- phi_1,phi_2,dots,phi_p: 这些是自回归系数。它们表示应用于过往值的权重 (weight)。例如,phi_1 表示前一个值(Y_t−1)对当前值(Y_t)的影响程度。
- Y_t−1,Y_t−2,dots,Y_t−p: 时间序列在之前时间点(滞后 1, 2, ..., p)的值。
- p: AR 模型的阶数,表示回归中包含多少个过往值。
- epsilon_t: 在时间 t 的误差项。这表示 Y_t 中未被过往值解释的部分。对于标准 AR 模型,此项假定为白噪声,这意味着它具有零均值、常数方差,并且在时间上不相关。
直观理解与阶数选择
可以把 AR(1) 模型(p=1)看作:它表明当前值 Y_t 主要依赖于紧邻的前一个值 Y_t−1,加上一个常数和一些随机噪声:
Yt=c+ϕ1Yt−1+ϵt
如果 phi_1 为正,昨天的高值表明今天也可能是高值。如果为负,昨天的高值表明今天可能是低值。AR(2) 模型会使用最近的两个过往值(Y_t−1 和 Y_t−2),依此类推。
我们如何确定合适的阶数 p 呢?正如第 3 章所讨论的,偏自相关函数(PACF)图在这里非常有帮助。对于一个纯 AR(p) 过程,PACF 图通常表现出:
- 直至滞后 p 的显著相关性。
- 在滞后 p 之后急剧截断,随后的偏自相关值接近于零(在置信区间内)。
在你的(平稳)时间序列的 PACF 中观察到这种模式,表明 AR(p) 模型可能是一个好的起点。
一个表现出 AR(1) 行为的示例时间序列。请注意,连续点在数值上趋于相对接近,反映了前一点的影响。
平稳性要求
需要记住,标准 AR 模型假定时间序列 Y_t 是平稳的。它的均值、方差和自相关结构不应随时间变化。如果你的数据是非平稳的(例如,表现出趋势或季节性),在应用 AR 模型之前,你通常需要对其进行变换,通常通过差分(如第 2 章所述)。这个差分步骤是 ARIMA 中由 'I' 表示的“积分”部分,我们将在本章稍后将其组合。
AR 模型捕获时间序列数据中一种特定类型的依赖结构。它们通过解释过往值如何影响当前来为更复杂的模型奠定基础。接下来,我们将查看移动平均 (MA) 模型,这类模型侧重于过往预测误差的作用。