趋近智
使用双重机器学习 (DML) 或因果森林等方法估计因果效应,很大程度上依赖于准确建模辅助函数:倾向得分 e(X)=P(T=1∣X) 和结果回归 μ(X,T)=E[Y∣X,T]。当潜在混杂因素集 X={X1,X2,...,Xp} 具有高维度(p 值较大)时,由于维度灾难、潜在多重共线性以及过拟合的风险,使用标准技术估计这些函数变得困难。简单地将所有 p 个变量纳入模型通常在计算上不可行,并且在统计上存在问题,可能导致因果效应估计的方差增大。因此,在因果推断框架内,需要专门的策略来有效处理高维混杂因素。
目标不仅仅是 T 或 Y 的预测准确性,而是识别并调整正确的变量集,即那些对于阻断处理 T 和结果 Y 之间混杂路径所必需的变量,同时避免因控制对撞机或中介变量而无意中引入偏差。
在诉诸纯算法选择之前,纳入实质性的领域知识非常宝贵。如果存在因果图(即使是基于先前研究或专家意见的部分指定图),它可以指导初步选择最可能是混杂因素的变量。在假定因果结构下,事先已知是工具变量、中介变量或对撞机的变量应谨慎处理,通常是将它们从用于调整的条件集合中排除。
正则化方法常用于高维预测任务,也可适用于因果推断中的辅助函数估计。这些方法在模型的损失函数中引入惩罚项,鼓励模型简化并执行隐式变量选择。
Lasso 回归增加了一个与系数绝对值之和成比例的惩罚项:λ∑j=1p∣βj∣。这鼓励稀疏性,意味着许多系数被缩减为精确的零,从而有效地选择变量子集。
当用于估计 e(X) 或 μ(X,T) 时,Lasso 可以帮助从高维集合中识别 X 的相关子集。在 DML 中,Lasso 可在交叉拟合过程中使用的机器学习模型中应用,以估计条件期望。
考量:
Elastic Net 结合了 L1 和 L2 惩罚:λ1∑j=1p∣βj∣+λ2∑j=1pβj2。当协变量高度相关时,它通常比 Lasso 表现更好,因为它倾向于同时选择一组相关的变量。如果多个相关变量是真实混杂机制的一部分,这对于混杂因素调整可能有利。
自适应 Lasso 对不同的系数应用不同的惩罚权重,通常使用从初始一致估计(如 Ridge 或 OLS 系数)导出的权重。在某些条件下,它在选择一致性(预言机性质)方面具有更好的理论属性,与标准 Lasso 相比,可能使得真实混杂因素的识别更准确。
仅专注于最大化 T 或 Y 预测准确性的标准特征选择算法可能对因果推断产生误导。一个变量可能强烈预测结果但不是混杂因素(例如,中介变量),或者弱预测结果但却是一个重要的混杂因素。
更适宜的方法旨在找到一个足以去混杂的子集 W⊆X,这意味着 W 满足后门准则:
方法包括:
主成分分析 (PCA) 或自编码器等技术通过创建一组更小的成分或潜在特征(它们是原始变量 X 的函数)来降维。虽然这对于预测有用,但直接使用这些降维后的表示进行因果调整通常会遇到问题。
Z=f(X)
调整 Z 而非 X 并不能保证阻断后门路径。Z 中的成分是原始变量的混合,它们组合预测变量的方式可能会掩盖或未能捕捉到特定的混杂关系。除非 f 是结合因果结构的特定知识构建的,或者在非常强的假设下,否则控制 Z 可能导致有偏的效应估计。通常在原始特征空间 X 上执行选择或正则化更为安全。
这是展示多个观测协变量 (X1,...,Xp) 和一个未观测混杂因素 (U) 影响处理 (T) 和结果 (Y) 的简化视图。选择正确的 X 子集对于通过 DML 等方法进行调整非常重要。U 代表了第四章中方法所应对的难题。
无论选择何种技术(正则化、选择),在 DML 等框架中实施时都需要注意:
最终,处理高维混杂因素需要结合领域知识、适合因果估计而非仅预测的适当正则化或选择技术,以及通过交叉拟合和敏感性分析进行的仔细验证。这些策略使得 DML 和因果森林等方法能够从复杂、高维数据中产生更可靠的因果效应估计。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造