传统的机器学习评估通常只关注模型在与训练数据同分布的未见数据上的预测性能。准确率、AUC 或均方误差等指标告诉我们模型在多大程度上模拟了数据中观察到的关联。然而,这种评估方法在部署旨在支持决策或理解行为影响的系统时,往往是不够的。仅依赖预测指标可能导致模型在纸面上表现良好,但在用于干预时失效,或在稍有不同的环境下泛化能力差。从因果角度评估模型,能更全面地衡量它们在决策和干预规划方面的适用性。本节将详细说明如何通过融入因果思想来超越标准评估。我们将考察旨在评估模型的指标和方法,这些评估基于模型对潜在因果机制的理解。评估干预下的预测性能许多机器学习应用的主要目标不只是预测在观察到的条件下会发生什么,而是预测如果我们主动干预系统会发生什么。标准评估不直接衡量这一点。因果评估侧重于评估模型在干预下预测结果的能力,通常使用珀尔的do演算符号 $P(Y|do(X=x))$ 来表示。设想一个基于肥料用量 ($X$) 和降雨量 ($W$) 预测作物产量 ($Y$) 的模型。标准评估衡量 $P(Y|X=x, W=w)$。然而,农民想知道如果他们将肥料用量 设定 为 $x$ 时的产量,而不考虑自然降雨模式。这需要对照干预分布 $P(Y|do(X=x))$ 来评估模型的预测。方法:定义因果估计量: 清楚说明您希望模型预测的干预效果(例如,平均治疗效果 (ATE) = $E[Y|do(X=1)] - E[Y|do(X=0)]$,或条件平均治疗效果 (CATE) = $E[Y|do(X=1), Z=z] - E[Y|do(X=0), Z=z]$)。获取真实结果(如果可能):随机对照试验数据: 随机对照试验 (RCTs) 或 A/B 测试通过实际执行干预来直接估计 $P(Y|do(X=x))$。这为比较提供了黄金标准。因果效应估计: 如果只有观察数据可用,请使用前几章的方法(例如,双重机器学习、因果森林、工具变量、回归不连续设计)应用于 测试集 来估计目标干预效果。这作为一项基准,但需承认它依赖于无法测试的假设。模拟: 使用已知的结构因果模型 (SCM) 来模拟观察和干预下的数据,这在受控环境中为模型评估提供了完美的真实结果。评估模型: 将机器学习模型在干预场景下的预测与真实结果或基准估计进行比较。例如,如果模型预测个体结果 $\hat{Y}_i$,则计算模型推断的 ATE(例如,在 $do(X=1)$ 下模拟的个体 $\hat{Y}_i$ 的平均值减去在 $do(X=0)$ 下的个体 $\hat{Y}_i$ 的平均值),并与基准 ATE 进行比较。{"layout": {"title": "模型预测与基准CATE对比", "xaxis": {"title": "基准CATE估计值"}, "yaxis": {"title": "模型预测CATE"}, "shapes": [{"type": "line", "x0": 0, "y0": 0, "x1": 1, "y1": 1, "xref": "paper", "yref": "paper", "line": {"color": "#adb5bd", "dash": "dash"}}], "margin": {"l": 50, "r": 50, "t": 50, "b": 50}}, "data": [{"type": "scatter", "mode": "markers", "x": [0.5, 1.2, -0.3, 0.8, 1.5, -0.1, 0.9, 1.1, 0.2, 1.8], "y": [0.6, 1.1, -0.2, 0.7, 1.6, 0.0, 1.0, 1.0, 0.3, 1.7], "marker": {"color": "#228be6"}}]}散点图,比较来自基准因果模型(例如,测试数据上的因果森林)的条件平均治疗效果 (CATE) 估计值与被评估的机器学习模型得出的 CATE 预测值。靠近对角线的点表明在预测干预效果方面对齐程度更好。评估反事实公平性标准公平性指标通常评估敏感属性(例如,种族、性别)与结果或误差之间的关联。然而,这些关联可能源于多种途径,有些被认为是公平的(例如,与敏感属性相关的资格差异),而另一些则不公平的(例如,直接歧视)。反事实公平性提出问题:“如果一个人的敏感属性不同,但所有其他背景因素保持不变,那么模型的预测会改变吗?”这需要对反事实进行推理,评估诸如 $P(\hat{Y}_{A=a'} \neq \hat{Y} | A=a, X=x)$ 的量,其中 $\hat{Y}$ 是模型预测,$A$ 是敏感属性,$X$ 代表其他特征。评估这需要一个因果模型来指定 $A$、$X$ 和真实结果 $Y$ 之间的关系。digraph G { rankdir=LR; node [shape=box, style=rounded, fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=10]; A [label="敏感属性 (A)", color="#fa5252", fontcolor="#fa5252"]; X [label="其他特征 (X)"]; Yhat [label="模型预测 (Ŷ)"]; Y [label="真实结果 (Y)"]; subgraph cluster_model { label = "机器学习模型"; style=dashed; color="#adb5bd"; Yhat; } A -> X [label=" 影响", color="#adb5bd", style=dashed]; // 例如,影响资格的社会因素 A -> Yhat [label=" 直接歧视?", color="#fa5252", style=dotted, arrowhead=empty]; // 待检查路径 X -> Yhat [label=" 学得关联"]; Y -> Yhat [label=" 目标关联", style=invis]; // 如有需要,使 Y 和 Yhat 垂直对齐 // 用于反事实推理的隐藏节点 subgraph cluster_cf { label = "反事实问题"; style=dotted; color="#495057"; node [shape=plaintext, fontcolor="#495057"]; cf_text [label="如果 A 不同,\n且背景因素保持不变,Ŷ 会改变吗?"]; } }简化因果图,说明影响模型预测 ($\hat{Y}$) 的潜在路径。反事实公平性旨在分离从敏感属性 ($A$) 到预测 ($\hat{Y}$) 的直接路径,该路径不通过合法的中间因素 ($X$) 起作用。方法:假设一个因果图: 定义敏感属性 $A$、其他特征 $X$、真实结果 $Y$ 以及可能未观察到的因素 $U$ 之间的假定因果关系。估计反事实: 使用假定的因果模型(通常是结构因果模型 SCM)和观察数据,估计在 $A=a$ 下观察到的个体的反事实预测 $\hat{Y}_{A=a'}$。这通常涉及根据图调整混杂因素。计算公平性指标: 根据观察到的预测 $\hat{Y}{A=a}$ 与估计的反事实预测 $\hat{Y}{A=a'}$ 之间的差异计算指标。例子包括预测发生变化的个体比例,或预测分数上的平均差异。敏感性分析: 由于因果图是一个假设,因此进行敏感性分析以评估违背假设(例如,未观察到的混杂)可能如何影响公平性结论。评估可迁移性和泛化性机器学习模型通常部署在与其训练环境不同的环境中。分布偏移是一个常见问题,但因果推断提供了工具,可分析性能下降的 原因 以及模型何时可能可迁移。包含选择变量或表示域间差异的因果图可以帮助找出潜在问题。示例: 一个预测患者风险的模型在城市 A 训练,并在城市 B 部署。协变量偏移: 患者人口统计学特征 ($X$) 不同 ($P_A(X) \neq P_B(X)$),但关系 $P(Y|X)$ 保持不变。标准域适应技术通常就足够了。概念漂移: 因果机制本身发生变化 ($P_A(Y|do(X=x)) \neq P_B(Y|do(X=x))$)。例如,由于城市 B 中普遍存在的未测量因素,治疗效果不同。该模型可能不适合用于干预规划。选择偏差: 数据采样方式不同。例如,城市 A 的数据来自常规检查,而城市 B 的数据包含更多急诊室就诊,这导致样本出现偏差。带有选择节点的因果图可以对此进行建模。digraph G { rankdir=TB; node [shape=box, style=rounded, fontname="Arial", fontsize=10]; edge [fontname="Arial", fontsize=10]; subgraph cluster_A { label = "域 A (训练)"; color = "#1c7ed6"; X_A [label="特征 X_A"]; Y_A [label="结果 Y_A"]; S_A [label="选择 S_A=1", shape=diamond, color="#adb5bd"]; X_A -> Y_A [label=" 因果机制."]; Y_A -> S_A [label=" 例如,如果 Y > 阈值则采样"]; } subgraph cluster_B { label = "域 B (目标)"; color = "#0ca678"; X_B [label="特征 X_B"]; Y_B [label="结果 Y_B"]; S_B [label="选择 S_B=1", shape=diamond, color="#adb5bd"]; X_B -> Y_B [label=" 因果机制."]; X_B -> S_B [label=" 例如,基于 X 采样"]; } // 添加关于潜在差异的注释 note_dist [label="P(X_A) ≠ P(X_B)? (协变量偏移)", shape=plaintext, fontcolor="#495057"]; note_mech [label="P(Y_A|do(X)) ≠ P(Y_B|do(X))? (概念漂移)", shape=plaintext, fontcolor="#495057"]; note_sel [label="P(S_A|X,Y) ≠ P(S_B|X,Y)? (选择偏差)", shape=plaintext, fontcolor="#495057"]; }因果图,说明训练域 (A) 和目标域 (B) 之间的潜在差异。评估可迁移性涉及评估特征分布 ($P(X)$)、因果机制 ($P(Y|do(X))$) 和选择过程 ($P(S|X, Y)$) 中的差异。方法:建模域差异: 使用因果图(可能通过选择图或域节点增强)来表示关于源域和目标域如何不同的假设。确定可迁移性条件: 应用因果可迁移性理论来确定目标域中的因果效果或预测目标是否可以从源域数据以及可能有限的目标域数据中识别出来。在目标域上评估: 如果可能,从目标域收集标注或未标注的数据。评估模型的预测性能,更重要的是,其在目标环境下预测干预效果(使用适当方法估计)的能力。受因果关系启发的域适应: 运用因果图提供的洞见来指导域适应技术,侧重于调整被识别为不可迁移性来源的因素。评估用于政策决策的模型当机器学习模型用于制定策略时(例如,决定谁获得贷款、医疗或晋升),评估应侧重于实施该策略的因果影响。这通常属于离线策略评估 (OPE) 的范畴,在强化学习环境中特别相关,但也适用于更广泛的场景。方法:定义策略: 明确机器学习模型得出的规则(例如,如果预测 CATE > 阈值 $\tau$ 则进行治疗)。估计策略价值: 使用观察数据和诸如逆倾向得分 (IPS)、直接法(使用单独的结果模型)或双重稳健估计(结合两者)等方法,以估计如果部署该策略的预期结果。比较策略: 评估机器学习得出策略的价值与替代策略的对比(例如,对所有人治疗、不对任何人治疗、来自不同模型的策略、现有启发式策略)。检查假设: 离线策略评估方法依赖于因果假设(例如,序列可忽略性、正性)。评估这些假设的合理性并进行敏感性分析。将因果评估融入工作流程超越标准指标需要将这些因果评估技术融入模型开发生命周期中:开发阶段: 使用基于假设的结构因果模型 (SCM) 进行模拟,以测试模型是否能复原已知的因果效应。测试/验证阶段: 将模型预测的干预效果与因果推断方法在保留数据上的估计值或 A/B 测试结果进行比较。使用适当的估计量和敏感性检查来评估反事实公平性。如果部署环境与训练环境不同,则评估可迁移性。 “* 部署后: 持续监测模型性能,不仅是预测准确性漂移,还要监测潜在的因果机制变化(第 6 章,“监测机器学习系统的因果稳定性”)。使用因果方法来分析基于模型做出的决策的影响。”“采用这些因果评估视角,您将朝向构建机器学习系统,这些系统不只是预测模式的模仿者,而是能在复杂环境中为干预和决策提供可靠指导的工具。”