回归不连续性设计 (RDD) 提供了一种有效的准实验方法,用于评估治疗分配并非随机,而是确定性或概率性地取决于一个观测到的连续变量(“运行变量”或“强制变量”)是否跨越特定阈值的情况下的因果效应。当我们怀疑未观测到的混杂因素可能使简单比较产生偏差时,这种设计尤其有用,因为RDD会运用分配规则本身,在临界点附近局部地分离出治疗效应。设想一种情况:如果学生的入学考试成绩 ($R$) 低于某个临界点 ($c$),他们将被分配到补习项目 ($T=1$),否则接受标准课程 ($T=0$)。比较所有补习项目学生与所有标准课程学生的平均结果 ($Y$),可能会因既有差异(混杂因素)而产生误导。成绩较低的学生可能在学习动机、先验知识或社会经济背景上有所不同,所有这些因素都可能独立于补习项目影响他们的最终结果。RDD利用了治疗分配在临界点 $c$ 处的不连续性。其核心思想是,刚好低于临界点 ($R = c - \epsilon$) 和刚好高于临界点 ($R = c + \epsilon$) 的个体,在所有相关特征(包括已观测和未观测的)上可能非常相似,除了他们的治疗状态。恰好在临界点观测到的平均结果的任何突然变化或“跳跃”,都可以归因于治疗本身。精确RDD与模糊RDDRDD主要有两种类型:精确RDD: 治疗分配是运行变量 $R$ 相对于临界点 $c$ 的确定性函数。例如,所有 $R \ge c$ 的人都会接受治疗,所有 $R < c$ 的人都不会。在临界点处,接受治疗的概率精确地从0跳到1。模糊RDD: 跨越临界点 $c$ 会改变接受治疗的概率,但不能完全决定它。例如,$R \ge c$ 的个体可能被鼓励或符合资格参与某个项目,但并非所有符合资格的个体都会参与。同样,一些低于临界点的人仍可能通过其他方式获得治疗。在模糊RDD中,治疗概率 $P(T=1|R=r)$ 在 $r=c$ 处呈现不连续性,但跳跃不一定是从0到1。识别的核心假设RDD的有效性依赖于几项假设:治疗分配的不连续性: 治疗概率必须在临界点 $c$ 处不连续变化。这是RDD的定义性特征。在精确RDD中,这种跳跃是从0到1。在模糊RDD中,跳跃必须是非零的。条件期望的连续性: 这是识别因果效应时最根本的假设。它指出,平均潜在结果 $E[Y(0)|R=r]$ 和 $E[Y(1)|R=r]$,在临界点 $c$ 附近必须是运行变量 $R$ 的连续函数。简单来说,如果治疗没有效果,平均结果与运行变量的关系图在临界点处不会显示任何跳跃。这一假设使我们能够将实际结果 $Y$ 在 $c$ 处观测到的任何不连续性归因于治疗 $T$ 的因果效应。无法精确操控运行变量: 个体不应能够完美控制其分数 $R$,以策略性地将自己置于临界点上方或下方。如果发生操控,则刚好低于和刚好高于临界点的个体可能存在系统性差异,违反了除了治疗状态外他们具有可比性的原则。常见的诊断方法是McCrary密度检验,它检查运行变量 $R$ 在临界点处是否存在密度不连续性。{"layout": {"xaxis": {"title": "运行变量 (R)"}, "yaxis": {"title": "密度"}, "title": "运行变量密度 (McCrary 检验可视化)", "bargap": 0.05}, "data": [{"type": "histogram", "x": [-2.8,-2.1,-1.5,-1.1,-0.8,-0.6,-0.4,-0.2,-0.1, 0.1, 0.2, 0.4, 0.7, 1.2, 1.6, 2.0, 2.5, 2.9, -2.5,-1.8,-1.2,-0.9,-0.7,-0.5,-0.3,-0.15, 0.05, 0.15, 0.3, 0.5, 0.8, 1.4, 1.8, 2.2, 2.7], "marker": {"color": "#4263eb"}}]}平滑的密度图表明临界点附近没有操控。在临界点处出现明显的跳跃或下降会引起担忧。排他性约束(仅限模糊RDD): 临界点 $c$ 应仅通过其对治疗 $T$ 的影响来影响结果 $Y$。这类似于工具变量中的排他性约束。估计策略目标是评估结果 $Y$ 在临界点 $c$ 处的跳跃幅度。由于我们通常没有正好在临界点的数据,因此评估涉及比较刚好低于和刚好高于临界点的单位的结果。精确RDD估计: 精确RDD中的因果效应是刚好高于和刚好低于临界点时的期望结果之差: $$ \tau_{SRD} = E[Y | R=c, T=1] - E[Y | R=c, T=0] = \lim_{r \downarrow c} E[Y|R=r] - \lim_{r \uparrow c} E[Y|R=r] $$ 标准方法是局部多项式回归:选择临界点 $c$ 周围的带宽 $h$。只考虑数据满足 $c-h \le R \le c+h$ 的情况。对低于临界点 ($R<c$) 和高于临界点 ($R \ge c$) 的单位,分别将结果 $Y$ 对中心化运行变量 $(R-c)$ 进行多项式回归拟合。通常使用局部线性(多项式次数为1)或局部二次(次数为2)回归。估计的治疗效应 $\hat{\tau}_{SRD}$ 是这两次回归在临界点 ($R=c$) 处评估所得预测值(截距)之差。模糊RDD估计: 在模糊RDD中,结果的跳跃需要根据治疗概率的跳跃进行缩放。它类似于工具变量(IV)方法,其中不连续性分配(高于临界点与低于临界点)作为实际接受治疗的工具变量。效应被估计为结果跳跃与治疗概率跳跃之比: $$ \tau_{FRD} = \frac{\lim_{r \downarrow c} E[Y|R=r] - \lim_{r \uparrow c} E[Y|R=r]}{\lim_{r \downarrow c} E[T|R=r] - \lim_{r \uparrow c} E[T|R=r]} $$ 这通常在临界点周围的带宽 $h$ 内,使用局部工具变量框架(如两阶段最小二乘法,2SLS)进行估计。第一阶段将治疗 $T$ 建模为临界点指示器和 $(R-c)$ 的多项式项的函数。第二阶段将结果 $Y$ 建模为第一阶段预测的治疗和 $(R-c)$ 的多项式项的函数。带宽选择: 选择带宽 $h$ 具有重要意义。较小的带宽可以减少偏差(通过使用更靠近临界点的观测值,从而强化连续性假设),但会增加方差(数据点更少)。较大的带宽会增加统计功效,但如果 $R$ 与 $Y(0)$ 或 $Y(1)$ 之间的关系高度非线性,则可能引入偏差。常用的数据驱动方法包括Imbens-Kalyanaraman (IK) 或 Calonico-Cattaneo-Titiunik (CCT)。可视化诊断绘制数据图对于评估RDD的有效性是必不可少的一步。结果与运行变量: 在运行变量 $R$ 的分箱内绘制平均结果 $Y$。寻找在临界点 $c$ 处的明显跳跃。叠加拟合的局部多项式线有助于可视化估计的不连续性。{"layout": {"xaxis": {"title": "运行变量 (R)", "zeroline": false}, "yaxis": {"title": "结果 (Y)"}, "title": "精确RDD:结果与运行变量", "shapes": [{"type": "line", "x0": 0, "y0": 0, "x1": 0, "y1": 1, "xref": "x", "yref": "paper", "line": {"color": "#f03e3e", "dash": "dash"}}], "annotations": [{"x": 0, "y": 1, "xref": "x", "yref": "paper", "text": "临界点 (c=0)", "showarrow": false, "yshift": 10, "xshift": -10}]}, "data": [{"name": "数据 < 临界点", "type": "scatter", "mode": "markers", "x": [-2.8, -2.1, -1.5, -1.1, -0.8, -0.6, -0.4, -0.2, -0.1], "y": [15, 18, 22, 25, 26, 27, 28, 29, 29.5], "marker": {"color": "#4263eb", "size": 6}}, {"name": "数据 >= 临界点", "type": "scatter", "mode": "markers", "x": [0.1, 0.2, 0.4, 0.7, 1.2, 1.6, 2.0, 2.5, 2.9], "y": [38, 39, 40, 41, 43, 45, 46, 48, 50], "marker": {"color": "#12b886", "size": 6}}, {"name": "局部拟合 < 临界点", "type": "scatter", "mode": "lines", "x": [-3, 0], "y": [14, 30], "line": {"color": "#4263eb", "width": 3}}, {"name": "局部拟合 >= 临界点", "type": "scatter", "mode": "lines", "x": [0, 3], "y": [38, 51], "line": {"color": "#12b886", "width": 3}}]}精确RDD的可视化。拟合线在临界点处的跳跃代表了估计的治疗效应。数据点显示了潜在的关系。治疗与运行变量(模糊RDD): 绘制 $R$ 分箱内接受治疗单位的比例。寻找在 $c$ 处的跳跃,以确认模糊RDD的第一阶段。协变量与运行变量: 绘制治疗前协变量与 $R$ 的关系图。这些图在临界点处不应显示不连续性。如果出现不连续性,则会对刚好高于和低于临界点的单位具有可比性的假设产生怀疑。解释与局限RDD估计的是局部平均治疗效应(LATE),具体而言,是运行变量值接近临界点 $c$ 的子人群的平均因果效应。这种效应可能不适用于远离临界点的个体,因为他们可能具有不同的特征和潜在的不同治疗效应大小。RDD需要临界点周围有足够的数据密度才能进行可靠的估计。它对带宽和多项式次数的选择也很敏感。运行变量的操控或在同一临界点处存在其他治疗或政策变化等违规行为,都可能使结果无效。机器学习中的RDD虽然RDD常见于计量经济学和政策评估中,但其理念在机器学习中也有相关应用:验证基准: 在已知分配阈值的情况下,RDD可以提供局部因果效应的可靠估计。这可以作为评估更复杂的因果机器学习模型(例如,因果森林或双重ML等CATE估计器)在阈值附近特定子人群性能的基准。发现自然实验: 阈值在机器学习系统中很常见(例如,推荐行动的分类阈值、触发干预的风险评分、内容推广的临界点)。将这些识别为潜在的RDD场景,可以对系统组件进行因果评估。高级估计: 虽然局部多项式是标准方法,但机器学习中的技术,例如局部随机森林或核方法,有时可以适用于RDD估计,从而可能在捕捉临界点附近的复杂关系方面提供灵活性,但需要仔细实施以保持理论保障。当分配遵循阈值规则时,RDD为因果推断提供了一个严谨的框架,提供了一种局部处理未观测混杂因素的方法,而无需直接测量所有混杂因素。仔细的实施和全面的诊断检查对于获得可靠的估计是必不可少的。