将因果推断原则应用于时间数据会引入一系列独特的复杂问题,这些问题与静态或横截面情境有所不同。尽管识别和估计因果效应的基本目标保持不变,但时间数据的引入使得必须面对在简单、非时间性分析中常被忽略的现象。在应用结构向量自回归(SVAR)或时间序列发现算法等专门方法之前,了解这些困难是基础。
自相关与时间依赖性
时间序列数据本身就存在时间依赖性。变量在时间 t 的值,表示为 Yt,通常与其过去的值 Yt−k(其中 k>0)相关。这种自相关违反了许多基本统计和机器学习模型所依据的标准独立性假设。
从因果角度看,自相关可能以几种问题形式出现:
- 混杂: 过去的因变量 Yt−k 可以直接影响当前处理 Xt 和当前因变量 Yt,充当混杂因素。
- 中介: Xt 对 Yt+k 的效应可能通过中间因变量 Yt+1,...,Yt+k−1 进行中介。
- 虚假关联: 独立时间序列(Xt 和 Yt)内部的高自相关,即使没有直接因果联系,也可能导致它们之间出现强关联。
简单应用回归调整而不考虑具体时间结构可能导致估计偏差。标准方法假定样本独立,当 Yt 强烈依赖于 Yt−1 时,这显然不成立。
非平稳性
许多标准时间序列模型和因果推断方法假定平稳性,这意味着过程的统计特性(如均值、方差和自相关结构)不随时间变化。然而,系统常表现出非平稳性:
- 趋势: 变量可能呈现上升或下降趋势(例如,股票价格、全球气温)。
- 季节性: 模式可能在固定时间间隔内重复(例如,节前零售销售额达到高峰)。
- 结构性变化: 潜在的数据生成过程或因果关系可能在特定时间点突然改变(例如,由于政策变化、技术转型或外部冲击)。
时间序列示例,说明平稳性(蓝色,围绕恒定均值波动)和非平稳性(红色,呈现上升趋势)。
非平稳性带来严重问题,原因如下:
- 假定平稳性的模型产生不可靠的推断。
- 因果关系本身可能随时间变化,意味着 P(Yt+k∣do(Xt=x)) 可能依赖于 t。从一个时期得出的识别策略和效应估计可能无法推广到其他时期。
- 差分等标准技术,虽然可能带来平稳性,但也可能改变或模糊潜在的因果关系。
反馈回路与同步性
与通常使用有向无环图(DAG)建模的典型横截面情境不同,时间系统经常涉及反馈回路:
- 滞后反馈: Xt 影响 Yt+1,而 Yt+1 又影响 Xt+2。这会在时间上形成循环。
- 同期反馈(同步性): Xt 在同一时间段内影响 Yt,而 Yt 同时影响 Xt。这在计量经济学中常见(例如,供给和需求)。
简化时间图,说明滞后反馈(从 Yt 到 Xt+1 的虚线红线)以及通过 Zt 引起的潜在时变混杂。
标准有向无环图分离准则(如 d-分离)依赖于无环性。反馈回路违反了这一点,需要替代的图示(例如,汇总图、循环图)或建模框架(如结构向量自回归或动态结构因果模型)来明确处理此类依赖关系。存在反馈时忽略它会导致严重偏差,常被称为内生性偏差或同步性偏差。
时变混杂
时间情境中的混杂可能特别复杂。变量 Zt 可能混杂 Xt 对 Yt+1 的效应。然而,处理 Xt 也可能影响混杂因素的未来值 Zt+1,而 Zt+1 又影响 Yt+2。这形成了一种时变混杂结构,其中过去的处理影响未来的混杂因素。
标准条件化策略(调整 Zt)在这些情境中可能不足或甚至引入偏差,尤其是在估计动态处理策略随时间变化的效应时。像 Pearl 的前门调整这样的技术很少适用,而考虑序列调整的方法,如 Robins 的 G-计算或边缘结构模型的 IPW,变得必要。这些与稍后讨论的动态处理方案所用的方法密切相关。
其他考量
- 高维度: 时间序列常涉及在许多时间点 t=1,...,T 测量的大量变量(Xt1,Xt2,...,Xtp)。这结合了高维数据(变量选择、正则化)的常见难点以及上述时间复杂性。
- 定义干预: 精确定义 do(Xt=x) 需要细心。它是单次冲击?还是持续变化?设置 Xt 是否影响未来的 Xt+k 值?干预的性质影响识别策略和解释。
- 数据要求: 可靠的时间因果推断常需要长的、高频率的时间序列。面板数据(在时间上观察到的多个单元)对于差分中差分或固定效应模型等方法常需要。数据限制可能严重制约高级方法的适用性。
应对这些难点需要超越为独立同分布数据设计的标准回归和基于有向无环图的方法。后续部分将介绍专门用于处理时间与动态系统中因果关系的技术。