标准条件之外的识别

识别因果效应，即 $P(Y | do(X=x))$ ，可以通过多种方法实现。例如，后门和前门调整准则为许多有向无环图 (DAGs) 描述的常见场景提供了解决方法。然而，这些准则仅涵盖了可识别情况的一个子集。系统常出现未观测混杂或复杂因果路径等问题，这些标准调整准则无法直接处理。结构因果模型 (SCMs) 和 do-演算的框架提供了一个更全面的工具集，用于处理这些更具挑战性的识别问题。

Do-演算的完备性

回顾do-演算的三个规则，它们允许我们在满足特定图条件的情况下，仅使用观测到的量来操纵涉及干预（ $do(\cdot)$ 算子）的概率分布。

规则1（观测的插入/删除）： $P(y | do(x), z, w) = P(y | do(x), z)$ 如果 $(Y \perp W | X, Z)_G$ ，其中 $G$ 是通过移除指向 $X$ 的边而得到的图。
规则2（动作/观测交换）： $P(y | do(x), do(z), w) = P(y | do(x), z, w)$ 如果 $(Y \perp Z | X, W)_{G_{\bar{X}\underline{Z}}}$ ，其中 $G_{\bar{X}\underline{Z}}$ 是移除了指向 $X$ 的入边和从 $Z$ 指出的出边的图。
规则3（动作的插入/删除）： $P(y | do(x), do(z), w) = P(y | do(x), w)$ 如果 $(Y \perp Z | X, W)_{G_{\bar{X}, \overline{Z(W)}}}$ ，其中 $Z(W)$ 是 $Z$ 中在 $G_{\bar{X}}$ 中不是 $W$ 的祖先的节点。

do-演算的意义不仅在于提供充分条件；它为 DAG 中的非参数 (parameter)识别提供了一个完备算法。如果一个因果效应 $P(y | do(x))$ 可以使用源自通过 DAG $G$ 表示的 SCM 的观测分布 $P(V)$ 来表达，那么系统地应用 do-演算规则将推导出该表达式。如果这些规则未能消除 $do$ -算子，则通常无法仅从观测数据中识别该效应，除非有进一步的假设。

考虑一个比典型后门或前门情况稍微复杂一点的场景：

一个未观测混杂因素 $U$ 同时影响 $X$ 和 $Y$ 。 $Z_1$ 介导 $X$ 对 $Y$ 的影响，而 $Z_2$ 混杂 $X$ 和 $Y$ 但可观测。传统后门方法因 $U$ 而失效。前门方法失效，因为仅靠 $Z_1$ 无法阻断 $X$ 到 $Y$ 的路径（由于 $Z_2 \to Y$ 路径）。

在此，识别 $P(Y|do(X=x))$ 需要仔细应用 do-演算规则，通常涉及依次对 $Z_1$ 和 $Z_2$ 等观测变量进行条件化和边际化。例如，可以尝试首先调整 $Z_2$ ，然后使用与介导变量 $Z_1$ 相关的属性。

存在未观测混杂因素时的识别

当未观测变量混淆处理 $X$ 和结果 $Y$ 之间的关系时，一个主要挑战就出现了。虽然 do-演算在这种情况下仅从观测数据来看表明无法识别，但特定结构或辅助变量有时可以实现识别。

工具变量 (IV)

经典方法是工具变量 (IV)。工具变量 $Z$ 是一个影响 $X$ 的变量，但它只通过影响 $X$ 来影响 $Y$ ，并且不与 $Y$ 共享任何共同原因（除了可能通过 $X$ ）。

典型的 IV 图结构。尽管存在未观测混杂因素 $U$ ，但 $Z$ 使得识别 $X$ 对 $Y$ 的效应成为可能。

在某些假设下（通常是简单估计的线性假设），IV 估计量可以恢复因果效应。例如，在线性、同质效应设定中：

\beta_{IV} = \frac{Cov(Z, Y)}{Cov(Z, X)}

这识别了 $X$ 对 $Y$ 的平均因果效应。实践中寻找有效工具变量是出了名的困难。它们必须满足相关性条件（ $Z$ 导致 $X$ ）和排他性限制（ $Z$ 只通过 $X$ 影响 $Y$ 且独立于 $U$ ）。我们将在第 4 章中介绍高级 IV 方法。

近端因果推断

近端因果推断是一个更新的框架，在直接工具变量不可用但未观测混杂因素的代理变量存在时，它提供了一种替代方案。假设 $U$ 是 $X$ 和 $Y$ 之间的未观测混杂因素。近端推断寻求两个观测变量：

$W$ : 一个“混杂代理”，受 $U$ 影响并影响 $X$ ，但除了通过 $U$ (和可能的 $X$ ) 之外不直接影响 $Y$ 。
$Z$ : 一个“结果代理”，受 $U$ 影响并影响 $Y$ ，但除了通过 $U$ 之外不直接影响 $X$ 。

重要的是， $W$ 和 $Z$ 必须满足某些条件独立性假设，它们基本上充当潜在混杂因素 $U$ 的噪声测量。

近端因果推断设置。 $W$ 和 $Z$ 是未观测混杂因素 $U$ 的观测代理。

在特定条件下，特别是求解积分方程（实践中常需要正则化 (regularization)或核方法），近端方法可以识别因果效应 $P(Y|do(X=x))$ 。例如，一种识别策略涉及从观测数据中求解桥函数 $h(x, z) = E[Y | X=x, Z=z]$ 和 $g(w, x) = P(X=x | W=w)$ ，然后通过潜在混杂因素 $U$ 将它们关联起来。这在高维设置中特别相关，其中 $U$ 可能很复杂，但高维代理 $W$ 和 $Z$ 可用（例如，文本嵌入 (embedding)、过去的用户行为）。我们将在第 4 章中介绍此内容。

广义调整准则

有时可以通过调整一组变量来实现识别，这些变量不满足标准后门准则，但满足替代图条件。例如，如果调整仅在其他变量的特定分层内有效，则条件后门准则可能适用。其他准则可能涉及在特定图结构下调整处理变量的后代，以及更简单的前门设置。这些方法通常源于仔细应用 do-演算或分析图结构，以寻找阻断混杂路径的替代方法。

通用识别算法 (ID 算法)

对于可能包含未观测混杂因素的 DAG（通常在最大祖先图 MAGs 等相关图中用双向边表示），Tian 和 Pearl 开发了一种可证明完备的算法，通常称为 ID 算法。给定一个因果查询 $P(y | do(x))$ 和一个因果图（可能包含隐藏变量），ID 算法会确定该查询是否可以从观测到的联合分布中识别。如果可以，算法将输出相应的估计量作为观测分布的函数；否则，它会正确报告不可识别性。

虽然该算法本身很复杂，涉及图分解和 do-演算逻辑的递归应用，但它的存在在理论上具有重要意义。它保证任何可识别的效应都可以被系统地发现。诸如 DoWhy 等库中存在实现，允许实践者检查复杂自定义图的可识别性。

参数 (parameter)识别与非参数识别

区分非参数识别和参数识别很重要。

非参数识别： 效应可以从观测分布中确定，无需对变量之间关系的函数形式（例如，线性、可加性）做出假设。后门、前门、do-演算和 ID 算法主要针对非参数识别。
参数识别： 效应仅在做出特定函数形式假设（例如，线性 SCMs，特定分布形式）的情况下才可识别。传统 IV 估计常依赖于线性假设。循环模型中的识别经常需要参数假设。

虽然非参数识别通常因其稳定性而受青睐，但参数假设有时是必要的，特别是在处理反馈循环或某些非参数方法失效的未观测混杂类型时。

实际意义

采用超出常规准则的方法，为在更具挑战性、更贴近实际的环境中进行因果推断带来了可能性。然而，这些高级策略伴随着注意事项：

更强的假设： 诸如 IV 和近端推断之类的方法依赖于可能难以验证且较强的假设（例如，排他性限制、代理变量有效性）。
数据要求： 它们通常需要特定的辅助变量（工具变量、代理变量），这些变量可能不可用。
估计复杂性： 源自这些策略的估计量可能很复杂，涉及多阶段回归、积分方程或专门优化，通常需要更大的样本量才能进行可靠估计。

因此，虽然这些方法扩展了我们的能力，但它们要求仔细考虑潜在假设，并更加关注敏感性分析（下一节会涉及），以评估结论对这些假设潜在违反的稳定性。系统地应用 do-演算或使用算法识别工具可以提供正式依据，但专业知识对于验证图结构的合理性和所需的识别假设仍然不可或缺。

参考文献

Causality: Models, Reasoning, and Inference, Judea Pearl, 2009 (Cambridge University Press) DOI: 10.1017/CBO9780511818817 - 关于结构因果模型、do-演算规则和识别理论的权威著作，包括do-演算的完备性和ID算法。
On the Identification of Causal Effects, Jin Tian, Judea Pearl, 2003 Journal of Machine Learning Research, Vol. 4 (Department of Computer Science, University of California, Los Angeles / UCLA Cognitive Systems Laboratory) - 提出用于在具有隐藏变量的任意有向无环图中非参数识别因果效应的完整ID算法。
Mostly Harmless Econometrics: An Empiricist's Companion, Joshua D. Angrist, Jörn-Steffen Pischke, 2009 (Princeton University Press) DOI: 10.1515/9781400829898 - 从计量经济学角度深入介绍工具变量，包括假设、估计和实践考虑。
Identifying Causal Effects with Proxy Variables of an Unmeasured Confounder, Wang Miao, Zhi Geng, and Eric J. Tchetgen Tchetgen, 2018 Biometrika, Vol. 105 (Oxford University Press) DOI: 10.1093/biomet/asy038 - 提出近端因果推断框架，展示如何利用未测量混杂变量的观察代理来识别因果效应。
Causal Inference: What If, Miguel A. Hernán and James M. Robins, 2020 (CRC Press) DOI: 10.1201/9781351220491 - 一本广泛引用的教科书，涵盖多种识别策略，包括具有未测量混杂的策略，并讨论不同方法的基础假设。