趋近智
使用双重机器学习 (machine learning) (DML) 或因果森林等方法估计因果效应,很大程度上依赖于准确建模辅助函数:倾向得分 和结果回归 。当潜在混杂因素集 具有高维度( 值较大)时,由于维度灾难、潜在多重共线性以及过拟合 (overfitting)的风险,使用标准技术估计这些函数变得困难。简单地将所有 个变量纳入模型通常在计算上不可行,并且在统计上存在问题,可能导致因果效应估计的方差增大。因此,在因果推断框架内,需要专门的策略来有效处理高维混杂因素。
目标不仅仅是 或 的预测准确性,而是识别并调整正确的变量集,即那些对于阻断处理 和结果 之间混杂路径所必需的变量,同时避免因控制对撞机或中介变量而无意中引入偏差。
在诉诸纯算法选择之前,纳入实质性的领域知识非常宝贵。如果存在因果图(即使是基于先前研究或专家意见的部分指定图),它可以指导初步选择最可能是混杂因素的变量。在假定因果结构下,事先已知是工具变量、中介变量或对撞机的变量应谨慎处理,通常是将它们从用于调整的条件集合中排除。
正则化方法常用于高维预测任务,也可适用于因果推断中的辅助函数估计。这些方法在模型的损失函数 (loss function)中引入惩罚项,鼓励模型简化并执行隐式变量选择。
Lasso 回归增加了一个与系数绝对值之和成比例的惩罚项:。这鼓励稀疏性,意味着许多系数被缩减为精确的零,从而有效地选择变量子集。
当用于估计 或 时,Lasso 可以帮助从高维集合中识别 的相关子集。在 DML 中,Lasso 可在交叉拟合过程中使用的机器学习 (machine learning)模型中应用,以估计条件期望。
考量:
Elastic Net 结合了 L1 和 L2 惩罚:。当协变量高度相关时,它通常比 Lasso 表现更好,因为它倾向于同时选择一组相关的变量。如果多个相关变量是真实混杂机制的一部分,这对于混杂因素调整可能有利。
自适应 Lasso 对不同的系数应用不同的惩罚权重 (weight),通常使用从初始一致估计(如 Ridge 或 OLS 系数)导出的权重。在某些条件下,它在选择一致性(预言机性质)方面具有更好的理论属性,与标准 Lasso 相比,可能使得真实混杂因素的识别更准确。
仅专注于最大化 或 预测准确性的标准特征选择算法可能对因果推断产生误导。一个变量可能强烈预测结果但不是混杂因素(例如,中介变量),或者弱预测结果但却是一个重要的混杂因素。
更适宜的方法旨在找到一个足以去混杂的子集 ,这意味着 满足后门准则:
方法包括:
主成分分析 (PCA) 或自编码器等技术通过创建一组更小的成分或潜在特征(它们是原始变量 的函数)来降维。虽然这对于预测有用,但直接使用这些降维后的表示进行因果调整通常会遇到问题。
调整 而非 并不能保证阻断后门路径。 中的成分是原始变量的混合,它们组合预测变量的方式可能会掩盖或未能捕捉到特定的混杂关系。除非 是结合因果结构的特定知识构建的,或者在非常强的假设下,否则控制 可能导致有偏的效应估计。通常在原始特征空间 上执行选择或正则化 (regularization)更为安全。
这是展示多个观测协变量 () 和一个未观测混杂因素 () 影响处理 () 和结果 () 的简化视图。选择正确的 子集对于通过 DML 等方法进行调整非常重要。 代表了第四章中方法所应对的难题。
无论选择何种技术(正则化 (regularization)、选择),在 DML 等框架中实施时都需要注意:
最终,处理高维混杂因素需要结合领域知识、适合因果估计而非仅预测的适当正则化或选择技术,以及通过交叉拟合和敏感性分析进行的仔细验证。这些策略使得 DML 和因果森林等方法能够从复杂、高维数据中产生更可靠的因果效应估计。
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•