趋近智
虽然标准工具变量(IV)方法提供了一种处理未观测混杂的有力途径,但它们常依赖于线性等假设,这在复杂、高维的机器学习环境中可能不成立。当工具变量(Z)、处理(T)、协变量(X)与结果(Y)之间的关系复杂且非线性时,像二阶段最小二乘法(2SLS)这样的传统方法可能产生有偏估计。深度学习和核方法提供了灵活、数据驱动的工具变量估计途径,能够捕捉这些复杂关联。
深度IV沿用二阶段最小二乘法(2SLS)的核心逻辑,但将每个阶段的线性模型替换为灵活的神经网络。回顾标准工具变量(IV)设定,工具变量Z影响处理T,而处理T进而影响结果Y。未观测混杂因素U同时影响T和Y,但假定Z与U独立,并且仅通过其对T的影响来影响Y。
由Hartford等人(2017)提出的深度IV方法包含两个主要阶段:
第一阶段(处理模型):一个神经网络根据工具变量Z和观测协变量X对处理T的条件分布进行建模。与线性2SLS仅仅预测期望值E[T∣Z,X]不同,该网络通常估计条件分布p(T∣Z,X)的参数。例如,如果T是连续的,它可能估计高斯混合模型的均值和方差。这种更丰富的表示捕捉了Z和X对T潜在的复杂影响。
第二阶段(结果模型):第二个神经网络根据观测协变量X和第一阶段预测的处理分布来预测结果Y。重要地,它不直接使用观测到的处理T,因为T受到U的混杂。相反,它有效地对预测的处理分布进行积分:
E[Y∣X]≈Ep(T∣Z,X)[gθ2(T,X)]其中gθ2(T,X)是由θ2参数化的第二阶段神经网络,代表了T、X和Y之间的结构关系。参数θ1和θ2通常通过最小化基于最终结果预测误差的损失函数来联合训练,常用随机梯度下降等技术。
深度IV框架概述,重点说明了用于建模处理分布和结果预测的两个神经网络阶段。
深度IV的优点:
深度IV的考量:
核IV提供了一种非参数替代方法,它使用核方法的技术,特别是再生核希尔伯特空间(RKHS)中的核均值嵌入。核IV不是使用参数函数(如线性模型或神经网络)明确地建模第一和第二阶段,而是专注于满足在RKHS中编码了IV假设的矩条件。
主要思想是找到一个函数h(X)(代表在给定固定t时,作为X的函数的条件期望E[Y∣X,T=t],或相关量),该函数位于RKHS H中并满足从IV假设推导出的条件矩约束。一种常见公式涉及解决一个类似于以下形式的优化问题:
h∈Hmini=1∑n(Yi−h(Xi,Ti))2+λR(h)需满足约束,即预测误差与RKHS中工具变量Z的函数正交。这种正交条件是线性IV中要求工具变量必须与结果方程的残差不相关的基于核的对应。
存在不同的核IV估计量,它们通常涉及求解从核矩阵导出的方程组,或在IV框架内采用核岭回归等技术。例如,Singh等人(2019)提出了基于矩条件核化的方法。
核IV的优点:
核IV的考量:
这两种方法在处理机器学习中常见的复杂IV情景方面均代表了重大进展。它们使从业者在存在未观测混杂因素的情况下尝试估计因果效应时,能够超越限制性的线性假设。
实现: 像EconML这样的库为各种高级IV估计器提供了实现,包括深度IV和核IV的变体,常将它们与其他机器学习工具集成。实现这些方法需要仔细考量其基础假设、模型设定(网络架构或核函数选择)和验证过程,以确保因果估计的稳健性。
在这些方法或标准IV之间进行选择,取决于具体问题结构、数据特性(大小、维度)、计算资源以及对灵活性、可解释性和理论保证之间所期望的权衡。最重要的是,无论估计技术多么复杂,所选工具变量的有效性仍然是获得有意义因果估计的最重要因素。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造