传统机器学习模型开发通常优先优化静态、观测数据分布上的预测表现。虽然这对于许多任务有效,但当目标是理解基本运作方式、预测干预的影响或在数据生成过程变化时确保稳定性时,这种方法可能有所不足。构建因果关系感知模型涉及将因果假设或目标直接融入模型训练过程本身,转向对结构关系的建模。为何调整模型开发?仅基于观测数据训练的常规模型有学习到虚假关联的风险。例如,模型可能了解到黄色手指预示肺癌,但这种关联受到吸烟的混淆。如果通过某种方式干预以清洁患者手指,这样的模型将无法准确预测肺癌风险的变化。因果关系感知开发旨在构建这样的模型:反映因果结构: 使模型参数或架构与已知或假设的因果关系对齐。干预下泛化: 当系统受到影响特定因果路径的干预或变化时,能可靠地表现。支持反事实推理: 不仅提供观测结果的估计,还提供在不同处理或条件下的潜在结果估计。因果关系感知建模的方法有几种方法将因果考量整合到模型开发阶段:1. 因果正则化如果您拥有先验因果知识,通常表示为有向无环图 (DAG),您可以使用它来正则化学习过程。这样做是为了惩罚违反假设因果结构的模型配置。例如,如果您的因果图规定特征 $X_i$ 不直接导致结果 $Y$,您可以在损失函数中添加一个惩罚项,以阻止在 $Y$ 的预测中将大的权重或影响分配给 $X_i$,特别是当其影响并非通过其他预期路径传递时。损失函数可能如下所示:$$ L_{总} = L_{预测}(Y, \hat{Y}) + \lambda \sum_{i \in \mathcal{I}} \text{惩罚}(w_i) $$这里,$L_{预测}$ 是标准预测损失(例如,均方误差、交叉熵),$\mathcal{I}$ 是根据先验知识对应于非因果关系的特征索引集合,$w_i$ 表示与 $X_i$ 对 $Y$ 的影响相关的模型参数,$\lambda$ 是一个正则化超参数,控制因果约束的强度。$\text{惩罚}(w_i)$ 的具体形式取决于模型类型(例如,线性模型或神经网络中权重上的L1/L2惩罚)。2. 受结构方程模型 (SEM) 启发的架构您可以不只依靠正则化,而是设计模型架构本身来模仿已知或假设的结构因果模型 (SCM)。这对于神经网络尤为重要。考虑一个由以下DAG表示的简单SCM:digraph G { rankdir=LR; node [shape=circle, style=filled, fillcolor="#a5d8ff"]; edge [color="#495057"]; X1 -> M [color="#1c7ed6"]; X2 -> M [color="#1c7ed6"]; M -> Y [color="#1c7ed6"]; X2 -> Y [color="#1c7ed6"]; M [fillcolor="#b2f2bb"]; Y [fillcolor="#ffec99"]; }一个简单的因果图,X1 和 X2 影响中介变量 M,且 M 和 X2 影响结果 Y。一个受SEM启发的神经网络可能包含:对应于 $X_1$ 和 $X_2$ 的输入。一个隐藏层或节点,专门设计用于仅基于其原因($X_1, X_2$)计算中介变量 $M$ 的值。一个预测 $Y$ 的输出层,仅基于其直接原因($M, X_2$)。这种架构约束强制执行SCM所隐含的条件独立性。训练这样的网络需要拟合表示结构方程的函数(例如,$M = f_M(X_1, X_2) + \epsilon_M$, $Y = f_Y(M, X_2) + \epsilon_Y$)。这种方法可以提高可解释性,并通过修改模型中相关的结构方程来模拟干预。3. 反事实目标正如第3章关于CATE估计所讨论的,模型可以明确地进行训练以预测潜在结果或处理效果。与其最小化观测结果 $Y$ 上的预测误差,目标变为最小化与反事实量相关的误差,例如 $Y(a)$(如果处理 $A$ 设定为 $a$ 的结果)或处理效果 $\tau = Y(1) - Y(0)$。S-Learners、T-Learners、X-Learners和Causal Forests等方法是典型例子。虽然它们的主要目标是效果估计,但它们代表了一种考虑因果关系的模型开发形式,因为它们的训练目标本质上是因果的。例如,T-Learner为 $\mathbb{E}[Y | A=1, X]$ 和 $\mathbb{E}[Y | A=0, X]$ 训练单独的模型,直接针对每个处理组下的条件结果。该目标隐式地旨在准确预测潜在结果,以协变量 $X$ 为条件。4. 学习不变表示像不变风险最小化 (IRM) 这样的技术旨在学习数据表示 $\Phi(X)$,使得基于 $\Phi(X)$ 对 $Y$ 的最优预测器 $w$ 在不同的“环境”或领域 $e \in \mathcal{E}$ 中保持不变。假设这些环境的差异是由于干预或变化引起的,这些干预或变化保留了 $\Phi(X)$ 和 $Y$ 之间的底层因果机制。目标通常表述为找到一个表示 $\Phi$ 和一个单一的预测器 $w$,它同时最小化所有环境中的预测损失:$$ \min_{\Phi, w} \sum_{e \in \mathcal{E}} L_{预测}(Y^e, w(\Phi(X^e))) \quad \text{约束条件 } w \in \arg\min_{\tilde{w}} L_{预测}(Y^e, \tilde{w}(\Phi(X^e))) \text{ 对于所有 } e $$该约束强制要求在给定表示 $\Phi$ 的情况下,$w$ 必须对每个环境都是最优的。通过寻找在环境变化(假设是非因果扰动)下保持稳定的预测器,IRM 旨在分离特征与结果关系中不变的因果成分。这有助于泛化到新的环境,在其中类似的因果机制成立。实现时的考虑开发考虑因果关系的模型需要仔细考虑:明确假设: 与标准机器学习不同,这些方法通常要求明确的因果假设,通常以因果图的形式或关于跨环境不变性的假设。模型的有效性在很大程度上取决于这些假设的正确性。敏感性分析(第1章)变得更为要紧。数据要求: 某些方法需要特定数据类型。例如,IRM 需要来自多个环境的数据,而训练反事实预测器通常受益于实验或强观测数据,其中识别策略(第1章)适用。权衡: 可能存在权衡。与纯粹的预测模型相比,一个考虑因果关系的模型在特定训练分布上的预测准确性可能略低,但它旨在在干预或领域偏移下有更好的泛化能力,并提供对系统行为更具意义的见解。复杂性: 实现和调整这些模型可能比标准监督学习更复杂,可能涉及多阶段估计过程(如双重机器学习,第3章)或受限优化问题。结合这些方法将模型开发从模式识别转向构建底层因果机制的表示。这种转变是创建机器学习系统的根本,其设计不仅是为了预测,更是为了在复杂、动态的情境中理解、干预并可靠地适应。