趋近智
识别策略提供了有效的工具,例如 do-calculus,以判断在给定因果图中编码的假设下,是否可以从观测数据中估计因果效应。然而,这些识别假设,特别是对于选定的调整集而言,没有未观测混杂因素的假定,或工具变量的有效性,仅凭观测数据是无法检验的。它们依赖于背景知识、专家判断和期望。这引出一个主要问题:如果这些假设略微或甚至中度被违背,我们对估计的因果效应能有多大的信心?敏感性分析提供了一套回答此问题的方法。
敏感性分析并非给出因果效应的单一估计值,而是检验在核心识别假设的不同违背情况下,该估计值会如何变化。它使我们能够量化结论的可靠程度。如果一个微小且看似合理的假设违背就大幅改变结果(例如,改变效应的符号或使其在统计上不显著),那么我们的发现被认为是敏感的或脆弱的。相反地,如果即使在大量违背情况下结论依然成立,我们对其可靠性就会更有信心。
考虑使用后门准则识别平均处理效应(ATE)所需的标准假定:条件可忽略性,其表述为:在给定一组观测协变量 的条件下,处理分配 与潜在结果 独立。形式上,对于所有 ,有 。此假定意味着 阻断了 和 之间的所有后门路径,即 包含了所有共同原因。
在实践中,我们永远无法绝对确定我们测量的协变量 真正包含了所有共同原因。可能总是存在一个未观测因素 ,它同时影响 和 ,即使在调整了 之后,也会产生残余混杂。
识别假设可能失效的常见情况。调整 无法阻断后门路径 ,因为 是未观测的。
敏感性分析直接应对这种不确定性。它不解决未观测混杂的问题,而是衡量其潜在影响。
存在多种方法来评估敏感性,主要关注未观测混杂因素的潜在影响。
Rosenbaum 的方法最初是为匹配观测研究开发的,它提供了一种正式方式来评估未观测混杂因素需要多强才能削弱研究结论,通常涉及处理效应的统计显著性。
其主要思想是引入一个敏感性参数 。想象两个单元 和 ,它们在所有观测协变量 上完美匹配。如果没有未观测混杂,单元 接受处理与单元 接受处理的几率将相等。然而,如果存在一个未观测的二元混杂因素 ,这些几率可能会有所不同。 代表了由于 的差异,两个 值相同的单元之间处理分配概率可能不同的最大几率比。
随后的分析会计算在 的不同假定值下,处理效应假设检验的 p 值范围。例如,我们可能会发现,当 高达 1.8 时,处理效应仍具有统计显著性(例如 p < 0.05),但当 时,则变得不显著。
解释: 我们将得出结论,该发现在未观测混杂因素(其改变处理分配几率的系数小于 1.8)面前是稳固的。为评估这是否真的可靠,我们常将此 值与观测协变量的效应大小进行比较。如果一个与处理和结果都紧密相关的观测协变量仅将几率改变了例如 1.5 倍,那么达到 的可靠性显得相当高。
Emily Oster 提出了一种更直接适用于回归分析的方法,它将敏感性与添加观测控制变量时处理系数的稳定性联系起来。其直观原理是,如果当加入解释结果额外方差很小的观测协变量时,估计的处理效应发生显著变化,这表明该估计可能对未观测协变量也高度敏感。
此方法需要指定两个参数:
给定 和 ,该方法计算“偏误调整后”的处理效应 。然后,我们可以确定在给定 的情况下,使 等于零(或超过某个其他阈值)所需的 值。
解释: 如果即使对于可信的 值(例如 1)和保守的高 ,处理效应仍与零有显著差异,则结果被认为是可靠的。相反,如果即使一个小的 (例如 0.5)在合理的 下也能将效应变为零,则该发现是敏感的。
图形表示非常有益。一种常见的可视化方式是绘制估计的处理效应(或置信区间边界)与敏感性参数( 或 )的关系图。这使得实践者能够迅速看到结论可能发生变化的阈值。
考虑一个敏感性分析结果:
估计处理效应的置信区间,是敏感性参数的函数。当参数达到约 2.7 时,该区间穿过零点(红色虚线)。
在此图中,蓝色线条代表处理效应的 95% 置信区间。随着敏感性参数(代表潜在未观测混杂的强度)沿 x 轴增加,置信区间会变宽并发生位移。下限穿过零效应线(此处约为 2.7)的点表明了稳固性的阈值。
尽管未观测混杂是最常关注的目标,但敏感性分析原则上也可应用于其他假设:
实施敏感性分析需要仔细考量并合理说明所选参数(,, )。
sensemakr(R 和 Python)、causalToolbox(R)等库以及 DoWhy(Python)中的功能可以帮助进行这些分析。敏感性分析并非万灵药;它依赖于特定情境。然而,它将讨论从一个无法检验的二元假设(“没有未观测混杂”)转变为一个量化评估(“需要多少未观测混杂才能改变我们的结论?”)。这种转变对于复杂系统中的负责任因果推断不可或缺,它为我们的发现增添了必要的严谨性和谦逊。
这部分内容有帮助吗?
sensemakr 包中实现。© 2026 ApX Machine Learning用心打造