使用双重机器学习 (DML) 或因果森林等方法估计因果效应,很大程度上依赖于准确建模辅助函数:倾向得分 $e(X) = P(T=1|X)$ 和结果回归 $\mu(X, T) = E[Y|X, T]$。当潜在混杂因素集 $X = {X_1, X_2, ..., X_p}$ 具有高维度($p$ 值较大)时,由于维度灾难、潜在多重共线性以及过拟合的风险,使用标准技术估计这些函数变得困难。简单地将所有 $p$ 个变量纳入模型通常在计算上不可行,并且在统计上存在问题,可能导致因果效应估计的方差增大。因此,在因果推断框架内,需要专门的策略来有效处理高维混杂因素。目标不仅仅是 $T$ 或 $Y$ 的预测准确性,而是识别并调整正确的变量集,即那些对于阻断处理 $T$ 和结果 $Y$ 之间混杂路径所必需的变量,同时避免因控制对撞机或中介变量而无意中引入偏差。运用领域知识与因果结构在诉诸纯算法选择之前,纳入实质性的领域知识非常宝贵。如果存在因果图(即使是基于先前研究或专家意见的部分指定图),它可以指导初步选择最可能是混杂因素的变量。在假定因果结构下,事先已知是工具变量、中介变量或对撞机的变量应谨慎处理,通常是将它们从用于调整的条件集合中排除。辅助函数估计的正则化方法正则化方法常用于高维预测任务,也可适用于因果推断中的辅助函数估计。这些方法在模型的损失函数中引入惩罚项,鼓励模型简化并执行隐式变量选择。Lasso (L1 正则化)Lasso 回归增加了一个与系数绝对值之和成比例的惩罚项:$\lambda \sum_{j=1}^p |\beta_j|$。这鼓励稀疏性,意味着许多系数被缩减为精确的零,从而有效地选择变量子集。当用于估计 $e(X)$ 或 $\mu(X, T)$ 时,Lasso 可以帮助从高维集合中识别 $X$ 的相关子集。在 DML 中,Lasso 可在交叉拟合过程中使用的机器学习模型中应用,以估计条件期望。倾向得分模型: 使用 Lasso 逻辑回归(或带有其他适当连接函数的 Lasso)来建模 $T \sim X$。结果模型: 使用 Lasso 回归来建模 $Y \sim X$(可能包含处理 $T$ 和交互项,具体取决于特定的 DML 变体或元学习器)。考量:Lasso 可能从一组高度相关的混杂因素中随意选择一个变量。正则化量 ($\lambda$) 影响变量选择和系数偏差。基于预测性能进行 $\lambda$ 调优的标准交叉验证对于因果估计可能不是最优的。调优可能需要考量后续效应估计的稳定性或可用的理论指导。Elastic NetElastic Net 结合了 L1 和 L2 惩罚:$\lambda_1 \sum_{j=1}^p |\beta_j| + \lambda_2 \sum_{j=1}^p \beta_j^2$。当协变量高度相关时,它通常比 Lasso 表现更好,因为它倾向于同时选择一组相关的变量。如果多个相关变量是真实混杂机制的一部分,这对于混杂因素调整可能有利。自适应 Lasso自适应 Lasso 对不同的系数应用不同的惩罚权重,通常使用从初始一致估计(如 Ridge 或 OLS 系数)导出的权重。在某些条件下,它在选择一致性(预言机性质)方面具有更好的理论属性,与标准 Lasso 相比,可能使得真实混杂因素的识别更准确。因果感知的特征选择仅专注于最大化 $T$ 或 $Y$ 预测准确性的标准特征选择算法可能对因果推断产生误导。一个变量可能强烈预测结果但不是混杂因素(例如,中介变量),或者弱预测结果但却是一个重要的混杂因素。更适宜的方法旨在找到一个足以去混杂的子集 $W \subseteq X$,这意味着 $W$ 满足后门准则:$W$ 阻断从 $T$ 到 $Y$ 的所有后门路径。$W$ 不包含 $T$ 的后代(特别是因果路径上的中介变量)。方法包括:图结构准则: 如果估计出可靠的因果图(参见第二章),算法可以直接从图结构中识别最小充分调整集。针对混杂因素的算法: 一些研究专注于设计专门的算法,以在高维数据中区分混杂因素与其他变量类型,有时通过分析条件独立性关系或运用多个环境/数据集。降维:一点警示主成分分析 (PCA) 或自编码器等技术通过创建一组更小的成分或潜在特征(它们是原始变量 $X$ 的函数)来降维。虽然这对于预测有用,但直接使用这些降维后的表示进行因果调整通常会遇到问题。$$ Z = f(X) $$调整 $Z$ 而非 $X$ 并不能保证阻断后门路径。$Z$ 中的成分是原始变量的混合,它们组合预测变量的方式可能会掩盖或未能捕捉到特定的混杂关系。除非 $f$ 是结合因果结构的特定知识构建的,或者在非常强的假设下,否则控制 $Z$ 可能导致有偏的效应估计。通常在原始特征空间 $X$ 上执行选择或正则化更为安全。digraph G { rankdir=LR; node [shape=circle, style=filled, fillcolor="#a5d8ff"]; T [label="处理"]; Y [label="结果"]; X1 [label="X1", fillcolor="#ffec99"]; X2 [label="X2", fillcolor="#ffec99"]; X3 [label="X3", fillcolor="#ffec99"]; X4 [label="...", fillcolor="#e9ecef"]; Xp [label="Xp", fillcolor="#ffec99"]; U [label="U", shape=circle, style=filled, fillcolor="#ffc9c9", fontcolor="#f03e3e"]; T -> Y; U -> T; U -> Y; X1 -> T; X1 -> Y; X2 -> T; X3 -> Y; Xp -> T; Xp -> Y; }这是展示多个观测协变量 ($X_1, ..., X_p$) 和一个未观测混杂因素 ($U$) 影响处理 ($T$) 和结果 ($Y$) 的简化视图。选择正确的 $X$ 子集对于通过 DML 等方法进行调整非常重要。$U$ 代表了第四章中方法所应对的难题。实际实施与验证无论选择何种技术(正则化、选择),在 DML 等框架中实施时都需要注意:交叉拟合: 在 DML 和因果森林中采用的交叉拟合(样本拆分)非常重要。这可以防止当相同数据既用于辅助成分的模型选择/正则化又用于估计最终因果效应时产生的偏差。选择或正则化过程应在交叉拟合过程的每个折叠内进行。敏感性分析: 由于方法和调优参数(例如 Lasso/Elastic Net 中的 $\lambda$)的选择会影响所得的效应估计,因此请进行敏感性分析。评估在关于混杂因素集的不同合理假设或不同正则化水平下,估计的 ATE 或 CATE 如何变化。这有助于评估您的结果的稳定性。软件: EconML 等库提供了 DML 和因果森林的实现,可以轻松与 scikit-learn 模型集成,从而允许在交叉拟合结构内使用 LassoCV、ElasticNetCV 等进行辅助函数估计。最终,处理高维混杂因素需要结合领域知识、适合因果估计而非仅预测的适当正则化或选择技术,以及通过交叉拟合和敏感性分析进行的仔细验证。这些策略使得 DML 和因果森林等方法能够从复杂、高维数据中产生更可靠的因果效应估计。