在识别因果效应和从数据中发现结构的基础工作完成后,我们将转向对这些效应进行量化。本章专门解决在面对高维数据时估计因果效应的常见难题,即潜在混淆变量 $X$ 的数量庞大。传统统计方法可能难以同时充分调整众多协变量。在此,您将学习如何应用旨在克服这些挑战并提供可靠效应估计的现代机器学习技术。我们将介绍:双重机器学习 (DML): 应用此方法有效估计平均处理效应 ($ATE = E[Y(1) - Y(0)]$),借助机器学习处理混淆变量、处理和结果之间的复杂关系。异质效应估计: 不再局限于平均效应,以了解处理影响如何在个体或子群体中有所不同。您将学习使用因果森林和元学习器(S-学习器、T-学习器、X-学习器)来估计条件平均处理效应 ($CATE = E[Y(1) - Y(0) | X=x]$)。深度学习方法: 考察神经网络架构如何适用于因果效应估计任务。高维混淆变量管理: 讨论专为高维因果推断量身定制的变量选择和正则化技术策略。CATE 估计器验证: 学习评估预测异质处理效应模型的性能和可靠性的方法。本章提供工具,帮助您在特征数量庞大的复杂、真实世界数据集中准确估计因果效应。