前面的章节侧重于在所有影响治疗 $T$ 和结果 $Y$ 的相关混杂变量 $Z$ 都已被观测到的假设下,识别和估计因果效应。然而,在许多实际的机器学习应用中,这种假设经常被违反。未测量的混杂因素或比较组之间的系统性差异(选择偏差)可能导致不正确的因果推断。本章将应对这一基本挑战。我们将审视几种高级技术,它们专门设计用于在重要变量未被观测时估计因果效应。您将了解:工具变量法 (IV): 如何使用第三个变量(一个工具)来隔离因果效应,该变量影响治疗但不直接影响结果(除非通过治疗)。我们将介绍像深度工具变量 (Deep IV) 和核工具变量 (Kernel IV) 这样的现代实现方法。回归不连续设计 (RDD): 如何利用尖锐或模糊的分配阈值来估计局部治疗效应。双重差分法 (DiD): 分析面板数据,比较治疗组和对照组随时间的变化,同时控制时间不变的未观测混杂因素。近端因果推断: 一种较新的方法,使用与未观测混杂因素相关的代理变量来实现识别。选择偏差校正方法: 受赫克曼校正启发,并适用于机器学习场景的技术。在本章结束时,您将理解这些方法背后的原理,并能够将它们应用于您的因果分析中,以减轻由未观测因素引起的偏差。