趋近智
传统机器学习模型开发通常优先优化静态、观测数据分布上的预测表现。虽然这对于许多任务有效,但当目标是理解基本运作方式、预测干预的影响或在数据生成过程变化时确保稳定性时,这种方法可能有所不足。构建因果关系感知模型涉及将因果假设或目标直接融入模型训练过程本身,转向对结构关系的建模。
仅基于观测数据训练的常规模型有学习到虚假关联的风险。例如,模型可能了解到黄色手指预示肺癌,但这种关联受到吸烟的混淆。如果通过某种方式干预以清洁患者手指,这样的模型将无法准确预测肺癌风险的变化。因果关系感知开发旨在构建这样的模型:
有几种方法将因果考量整合到模型开发阶段:
如果您拥有先验因果知识,通常表示为有向无环图 (DAG),您可以使用它来正则化学习过程。这样做是为了惩罚违反假设因果结构的模型配置。
例如,如果您的因果图规定特征 Xi 不直接导致结果 Y,您可以在损失函数中添加一个惩罚项,以阻止在 Y 的预测中将大的权重或影响分配给 Xi,特别是当其影响并非通过其他预期路径传递时。
损失函数可能如下所示:
L总=L预测(Y,Y^)+λi∈I∑惩罚(wi)这里,L预测 是标准预测损失(例如,均方误差、交叉熵),I 是根据先验知识对应于非因果关系的特征索引集合,wi 表示与 Xi 对 Y 的影响相关的模型参数,λ 是一个正则化超参数,控制因果约束的强度。惩罚(wi) 的具体形式取决于模型类型(例如,线性模型或神经网络中权重上的L1/L2惩罚)。
您可以不只依靠正则化,而是设计模型架构本身来模仿已知或假设的结构因果模型 (SCM)。这对于神经网络尤为重要。
考虑一个由以下DAG表示的简单SCM:
一个简单的因果图,X1 和 X2 影响中介变量 M,且 M 和 X2 影响结果 Y。
一个受SEM启发的神经网络可能包含:
这种架构约束强制执行SCM所隐含的条件独立性。训练这样的网络需要拟合表示结构方程的函数(例如,M=fM(X1,X2)+ϵM, Y=fY(M,X2)+ϵY)。这种方法可以提高可解释性,并通过修改模型中相关的结构方程来模拟干预。
正如第3章关于CATE估计所讨论的,模型可以明确地进行训练以预测潜在结果或处理效果。与其最小化观测结果 Y 上的预测误差,目标变为最小化与反事实量相关的误差,例如 Y(a)(如果处理 A 设定为 a 的结果)或处理效果 τ=Y(1)−Y(0)。
S-Learners、T-Learners、X-Learners和Causal Forests等方法是典型例子。虽然它们的主要目标是效果估计,但它们代表了一种考虑因果关系的模型开发形式,因为它们的训练目标本质上是因果的。例如,T-Learner为 E[Y∣A=1,X] 和 E[Y∣A=0,X] 训练单独的模型,直接针对每个处理组下的条件结果。该目标隐式地旨在准确预测潜在结果,以协变量 X 为条件。
像不变风险最小化 (IRM) 这样的技术旨在学习数据表示 Φ(X),使得基于 Φ(X) 对 Y 的最优预测器 w 在不同的“环境”或领域 e∈E 中保持不变。假设这些环境的差异是由于干预或变化引起的,这些干预或变化保留了 Φ(X) 和 Y 之间的底层因果机制。
目标通常表述为找到一个表示 Φ 和一个单一的预测器 w,它同时最小化所有环境中的预测损失:
Φ,wmine∈E∑L预测(Ye,w(Φ(Xe)))约束条件 w∈argw~minL预测(Ye,w~(Φ(Xe))) 对于所有 e该约束强制要求在给定表示 Φ 的情况下,w 必须对每个环境都是最优的。通过寻找在环境变化(假设是非因果扰动)下保持稳定的预测器,IRM 旨在分离特征与结果关系中不变的因果成分。这有助于泛化到新的环境,在其中类似的因果机制成立。
开发考虑因果关系的模型需要仔细考虑:
结合这些方法将模型开发从模式识别转向构建底层因果机制的表示。这种转变是创建机器学习系统的根本,其设计不仅是为了预测,更是为了在复杂、动态的情境中理解、干预并可靠地适应。
这部分内容有帮助吗?
© 2026 ApX Machine Learning用心打造