识别策略提供了有效的工具,例如 do-calculus,以判断在给定因果图中编码的假设下,是否可以从观测数据中估计因果效应。然而,这些识别假设,特别是对于选定的调整集而言,没有未观测混杂因素的假定,或工具变量的有效性,仅凭观测数据是无法检验的。它们依赖于背景知识、专家判断和期望。这引出一个主要问题:如果这些假设略微或甚至中度被违背,我们对估计的因果效应能有多大的信心?敏感性分析提供了一套回答此问题的方法。敏感性分析并非给出因果效应的单一估计值,而是检验在核心识别假设的不同违背情况下,该估计值会如何变化。它使我们能够量化结论的可靠程度。如果一个微小且看似合理的假设违背就大幅改变结果(例如,改变效应的符号或使其在统计上不显著),那么我们的发现被认为是敏感的或脆弱的。相反地,如果即使在大量违背情况下结论依然成立,我们对其可靠性就会更有信心。识别假设为何需要检验考虑使用后门准则识别平均处理效应(ATE)所需的标准假定:条件可忽略性,其表述为:在给定一组观测协变量 $Z$ 的条件下,处理分配 $X$ 与潜在结果 $Y(x)$ 独立。形式上,对于所有 $x$,有 $Y(x) \perp X | Z$。此假定意味着 $Z$ 阻断了 $X$ 和 $Y$ 之间的所有后门路径,即 $Z$ 包含了所有共同原因。在实践中,我们永远无法绝对确定我们测量的协变量 $Z$ 真正包含了所有共同原因。可能总是存在一个未观测因素 $U$,它同时影响 $X$ 和 $Y$,即使在调整了 $Z$ 之后,也会产生残余混杂。digraph G { rankdir=LR; node [shape=circle]; edge [arrowhead=vee]; U [label="U (未观测)", style=dashed, fontcolor=gray]; X [label="X (处理)"]; Y [label="Y (结果)"]; Z [label="Z (观测协变量)"]; U -> X [style=dashed, color=gray]; U -> Y [style=dashed, color=gray]; Z -> X; Z -> Y; X -> Y; }识别假设可能失效的常见情况。调整 $Z$ 无法阻断后门路径 $X \leftarrow U \rightarrow Y$,因为 $U$ 是未观测的。敏感性分析直接应对这种不确定性。它不解决未观测混杂的问题,而是衡量其潜在影响。量化对未观测混杂的敏感性存在多种方法来评估敏感性,主要关注未观测混杂因素的潜在影响。1. Rosenbaum 敏感性分析(用于匹配/分层)Rosenbaum 的方法最初是为匹配观测研究开发的,它提供了一种正式方式来评估未观测混杂因素需要多强才能削弱研究结论,通常涉及处理效应的统计显著性。其主要思想是引入一个敏感性参数 $\Gamma \geq 1$。想象两个单元 $i$ 和 $j$,它们在所有观测协变量 $Z$ 上完美匹配。如果没有未观测混杂,单元 $i$ 接受处理与单元 $j$ 接受处理的几率将相等。然而,如果存在一个未观测的二元混杂因素 $U$,这些几率可能会有所不同。$\Gamma$ 代表了由于 $U$ 的差异,两个 $Z$ 值相同的单元之间处理分配概率可能不同的最大几率比。如果 $\Gamma = 1$,则意味着没有未观测混杂影响处理分配 $Z$。如果 $\Gamma = 2$,则表示一个未观测混杂因素可能导致根据 $Z$ 值看来相同的个体,其接受处理的几率最多相差两倍。随后的分析会计算在 $\Gamma$ 的不同假定值下,处理效应假设检验的 p 值范围。例如,我们可能会发现,当 $\Gamma$ 高达 1.8 时,处理效应仍具有统计显著性(例如 p < 0.05),但当 $\Gamma \ge 1.8$ 时,则变得不显著。解释: 我们将得出结论,该发现在未观测混杂因素(其改变处理分配几率的系数小于 1.8)面前是稳固的。为评估这是否真的可靠,我们常将此 $\Gamma$ 值与观测协变量的效应大小进行比较。如果一个与处理和结果都紧密相关的观测协变量仅将几率改变了例如 1.5 倍,那么达到 $\Gamma = 1.8$ 的可靠性显得相当高。2. Oster 系数稳定性方法(用于回归分析)Emily Oster 提出了一种更直接适用于回归分析的方法,它将敏感性与添加观测控制变量时处理系数的稳定性联系起来。其直观原理是,如果当加入解释结果额外方差很小的观测协变量时,估计的处理效应发生显著变化,这表明该估计可能对未观测协变量也高度敏感。此方法需要指定两个参数:$\delta$:一个参数,表示可观测因素与不可观测因素如何与处理相关联的比例程度。$\delta = 1$ 意味着不可观测因素与处理的关系与可观测因素的关系相同(在可观测因素的条件下)。大于 1 的值表示不可观测因素与处理的关系比可观测因素更强。负值也是可能的。选择 $\delta$ 通常是最具挑战性的部分,常被设置为 1 作为基准。$R_{max}^2$:结果对处理以及观测和未观测协变量进行回归得到的 R 方值。这表示模型能够解释的总方差。它必须小于或等于 1,通常根据专业知识或与类似研究中的 R 方值进行比较来选择。一个常用基准是 $R_{max}^2 = 1.3 \times \tilde{R}^2$,这里的 $\tilde{R}^2$ 指的是使用观测控制变量进行回归得到的 R 方值。给定 $\delta$ 和 $R_{max}^2$,该方法计算“偏误调整后”的处理效应 $\beta^$。然后,我们可以确定在给定 $R_{max}^2$ 的情况下,使 $\beta^$ 等于零(或超过某个其他阈值)所需的 $\delta$ 值。解释: 如果即使对于可信的 $\delta$ 值(例如 1)和保守的高 $R_{max}^2$,处理效应仍与零有显著差异,则结果被认为是可靠的。相反,如果即使一个小的 $\delta$(例如 0.5)在合理的 $R_{max}^2$ 下也能将效应变为零,则该发现是敏感的。3. 敏感性可视化图形表示非常有益。一种常见的可视化方式是绘制估计的处理效应(或置信区间边界)与敏感性参数($\Gamma$ 或 $\delta$)的关系图。这使得实践者能够迅速看到结论可能发生变化的阈值。考虑一个敏感性分析结果:{"data":[{"x":[1,1.2,1.4,1.6,1.8,2,2.2,2.4,2.6,2.8,3],"y":[0.25,0.23,0.21,0.19,0.17,0.15,0.13,0.11,0.09,0.07,0.05],"type":"scatter","mode":"lines","name":"置信区间下限","line":{"color":"#4263eb"}},{"x":[1,1.2,1.4,1.6,1.8,2,2.2,2.4,2.6,2.8,3],"y":[0.45,0.47,0.49,0.51,0.53,0.55,0.57,0.59,0.61,0.63,0.65],"type":"scatter","mode":"lines","name":"置信区间上限","line":{"color":"#4263eb"}},{"x":[1,3],"y":[0,0],"type":"scatter","mode":"lines","name":"零效应","line":{"dash":"dash","color":"#f03e3e"}}],"layout":{"title":"效应估计对未观测混杂的敏感性","xaxis":{"title":"敏感性参数(例如 Gamma 或 Delta 的函数)"},"yaxis":{"title":"估计的处理效应(置信区间)"},"legend":{"yanchor":"top","y":0.99,"xanchor":"left","x":0.01},"margin":{"l":50,"r":20,"t":50,"b":50}}}估计处理效应的置信区间,是敏感性参数的函数。当参数达到约 2.7 时,该区间穿过零点(红色虚线)。在此图中,蓝色线条代表处理效应的 95% 置信区间。随着敏感性参数(代表潜在未观测混杂的强度)沿 x 轴增加,置信区间会变宽并发生位移。下限穿过零效应线(此处约为 2.7)的点表明了稳固性的阈值。对未观测混杂的敏感性尽管未观测混杂是最常关注的目标,但敏感性分析原则上也可应用于其他假设:排他性约束(工具变量): 在工具变量估计值发生显著变化之前,该工具对结果能产生多大程度的直接影响(违背排他性约束)?平行趋势(双重差分): 在双重差分估计值变得不可靠之前,处理组和控制组之间的处理前趋势可能有多大差异?图结构: 如果在假定的有向无环图(DAG)中添加或移除某些边,识别出的估计量将如何变化?这通常通过提出其他可信的图并重新运行识别过程来进行检验。实践考量与报告实施敏感性分析需要仔细考量并合理说明所选参数($\Gamma$,$\delta$, $R_{max}^2$)。基准比较: 将所需未观测混杂因素($\Gamma$ 或 $\delta$)的强度与观测协变量的强度进行比较。如果结果仅对远强于任何观测预测因素的混杂敏感,这会增加其可信度。软件: 像 sensemakr(R 和 Python)、causalToolbox(R)等库以及 DoWhy(Python)中的功能可以帮助进行这些分析。透明度: 报告敏感性分析结果时,应始终与主要因果效应估计值一同呈现。清晰说明所用方法、选择的参数、这些参数的理由以及解释。这种透明度对于从观测数据中进行可信的因果推断非常重要。敏感性分析并非万灵药;它依赖于特定情境。然而,它将讨论从一个无法检验的二元假设(“没有未观测混杂”)转变为一个量化评估(“需要多少未观测混杂才能改变我们的结论?”)。这种转变对于复杂系统中的负责任因果推断不可或缺,它为我们的发现增添了必要的严谨性和谦逊。