自相关函数 (ACF) 能够提供时间序列观测值与其过去值关联方式的概览。然而,ACF不区分直接和间接关系。例如,ACF衡量的yt和yt−2之间的关联包含了yt−1的影响,因为yt通常与yt−1相关联,而yt−1又与yt−2相关联。为了分离出yt和特定滞后yt−k之间的直接关系,剔除yt−1,yt−2,…,yt−k+1等中间观测值的影响,需要一种不同的工具。偏自相关函数 (PACF) 正是用来衡量这种直接关系的。
什么是偏自相关?
可以将滞后k处的偏自相关视为yt和yt−k之间的关联,这种关联不由它们与中间滞后(t−1,t−2,…,t−k+1)处时间序列值的相互关联所解释。
可以设想通过以下方式计算它:
- 使用中间滞后yt−1,…,yt−k+1来预测yt。将此预测的误差设为et。
- 使用相同的中间滞后yt−1,…,yt−k+1来预测yt−k。将此预测的误差设为et−k。
- 滞后k处的偏自相关是这两个预测误差之间的关联,即Corr(et,et−k)。
这个过程有效地去除了与中间滞后相关的线性依赖,只留下yt和yt−k之间的直接关联。
在考虑yt和yt−2之间的关系时,ACF和PACF之间的区别。PACF在考虑了yt−1之后,分离出直接联系。
为何使用PACF?识别AR模型
PACF的主要用途在于确定自回归 (autoregressive) (AR) 模型的阶数 (p)。回想一下,AR(p)模型将yt表示为其前p个值的线性组合加上一个误差项:
yt=c+ϕ1yt−1+ϕ2yt−2+⋯+ϕpyt−p+ϵt
根据定义,在纯AR(p)过程当中,yt对yt−1,…,yt−p有直接线性依赖。然而,一旦考虑了这p个滞后,则yt与更远的滞后(如yt−p−1,yt−p−2等)之间就不应存在直接线性关系。在ACF中,在这些更远的滞后处看到的任何关联都是间接的,通过前p个滞后传递。
因此,对于平稳AR(p)过程,我们预期PACF图会显示:
- 直至滞后p都存在显著的偏自相关。
- 在滞后p之后急剧截断,对于滞后k>p的偏自相关在统计上不显著(接近零且在显著性边界内)。
这种独特的模式与AR(p)过程的ACF形成对比,AR(p)过程的ACF通常呈现出更缓慢地衰减至零。
PACF图的解读
与ACF图类似,PACF图在y轴上显示不同滞后的偏自相关值,x轴上显示滞后数。它们通常也包含置信区间(常以阴影区域表示,通常为95%置信水平)。
- 显著滞后: 超出置信区间的尖峰被认为在统计上显著。
- 截断: 在某个滞后p之后,偏自相关值急剧降至不显著,这是AR(p)过程的特点。
- 衰减: 与AR模型的ACF不同,MA(移动平均)模型的PACF倾向于逐渐衰减。
通过结合ACF图(我们将在下一节讨论如何生成)查看PACF图,您将获得关于时间序列潜在结构的有用线索,并可以做出明智的决定,确定哪种模型类型(AR、MA或ARMA)可能合适,以及需要考量哪些阶数参数 (parameter)。对于识别AR模型阶数,PACF尤其有用。