传统的机器学习流程通常将特征工程和选择主要视为优化问题,目标是在特定数据集上最大化预测准确性。特征的选取或设计基于它们与目标变量的统计关联,使用相关性分析、互信息、递归特征消除或从预测模型(如SHAP值、排列重要性)导出的重要性得分等技术。这种方法在稳定条件下的预测表现良好,但当目标扩展到理解底层机制、预测干预效果或在不断变化的环境中依然有效时,它可能会出现不足。引入因果原则为管理特征提供了一种更具结构性且有理论依据的方法。
使用因果结构进行特征管理
因果图,通常是定向无环图(DAG),是一种非常有用的蓝图,即使它只是部分已知或基于领域知识假设的。它编码了关于数据生成过程的假设,使我们能够推理每个变量的作用以及因包含或排除它们而可能引入的潜在偏差。
识别和处理混杂因素
混杂因素是特征(或干预)X 和结果 Y 的共同原因。在因果图中,这表现为 X←Z→Y。未能考虑混杂因素会导致 X 和 Y 之间关系估计的偏差。标准预测模型通常隐式地捕捉混杂效应,这有助于在类似数据上的预测准确性,但会掩盖真实的因果联系。为了因果关系的理解或干预规划,使用DAG识别潜在的混杂因素并将其纳入模型的特征集对于调整非常重要(例如,通过后门准则)。
避免对撞偏差
对撞变量是另外两个变量的共同结果。与特征选择相关的一个典型例子是,当特征 M 同时由目标特征 X 和结果 Y 引起时(X→M←Y)。以对撞变量为条件(即将其作为特征包含在模型中)可能会在 X 和 Y 之间引入虚假的统计关联,即使它们最初是独立的。这被称为对撞偏差或内生选择偏差。因果图有助于识别潜在的对撞变量。除非专门对生成对撞变量的过程进行建模,否则此类变量通常应从用于估计 X 对 Y 的因果效应的特征集中排除。
以对撞变量 M 为条件会在 X 和 Y 之间打开一条非因果路径,可能产生误导性关联。
理解中介变量
中介变量位于特征 X 和结果 Y 之间的因果路径上(X→M→Y)。在模型中包含 X 和中介变量 M 允许估计 X 对 Y 的 直接效应(不通过 M 的效应)。排除中介变量允许估计 X 对 Y 的 总效应。是否包含中介变量的决定完全取决于所问的具体因果问题。因果图明确了中介变量的作用。
变量 M 中介了 X 对 Y 的影响。包含 M 阻断了间接路径,从而分离出直接效应(如果有的话)。
谨慎使用代理变量
有时,重要的混杂因素 U 无法被观察到。然而,我们可能会观察到由 U 引起的代理变量 P(例如,X←U→Y 和 P←U)。在模型中包含代理变量需要谨慎考虑。尽管它们不能完全替代未观察到的混杂因素,但有时可以帮助减轻偏差。像近端因果推断(在第4章中讨论)这样的技术提供了一个在特定结构假设下使用代理变量的正式框架。没有此框架的简单包含有时可能会增加偏差。
特征工程中的因果思考
选择可以启发新特征的创建:
- 交互项: 如果因果图(或领域知识)表明特征 X1 对 Y 的影响受另一个特征 X2 的修改(效应异质性),那么明确设计一个交互项(X1×X2)可以比依赖复杂模型隐式学习更有效地捕捉这种关系。
- 基于机制的转换: 关于因果联系函数形式的领域知识可能会提出特定的转换。例如,如果传感器读数 X 被认为只有在超过某个阈值 t 时才会触发效应,那么设计一个二元特征 I(X>t) 可能比直接使用 X 具有更多的因果信息。
- 反事实特征: 对于涉及预测干预结果的任务,可以设计代表反事实状态的特征。例如,估计潜在折扣的影响可能涉及创建表示
price_with_discount 和 actual_price 的特征。
使用相关性进行特征选择
标准特征选择优先考虑预测能力,通常通过准确性提高或预测误差减少等指标来衡量。然而,因果相关的特征在特定数据集中可能不总是最具预测性的,而高度预测性的特征可能在因果上无关紧要,甚至有害(如对撞变量或结果的效应)。
- 因果特征选择目标: 目标从找到与 Y 相关的 任何 特征转变为找到满足特定因果标准的特征。为了估计 X 对 Y 的总效应,目标是找到一个充分调整集(通常由后门准则指导)。对于对 X 的干预具有稳健性的预测,目标可能是识别 Y 的直接原因(其在因果图中的马尔可夫毯,排除后代)。
- 使用因果发现: 第2章中的算法(例如PC、FCI、GES)可以用于探索性地假设因果关系并推荐候选特征(例如 Y 的潜在直接原因)。然而,这些算法的输出在很大程度上取决于它们的假设和数据质量,并且理想情况下应与领域知识进行验证。
- 不变预测: 一个日益受到关注的原则是选择特征,使得条件分布 P(Y∣Features) 在不同环境或实验条件下保持不变。这通常意味着选择直接原因,因为涉及混杂因素或效应的关系可能会在不同环境中发生变化。
对稳健性和泛化的影响
基于因果原则选择特征构建的模型,在条件变化或干预下,往往表现出更高的稳健性和更好的泛化能力。
- 稳定性: 由混杂或对撞偏差引起的相关性可能是数据集特定的,或者如果混杂因素的分布或选择机制发生变化,它们也会随之改变。因果关系(直接原因)通常被认为更稳定或“不变”。依赖这些关系的模型在部署到略有不同的环境中时,不太可能失效。
- 干预预测: 捕捉因果路径的模型更适合预测干预的结果。一个仅仅由于混杂(X←Z→Y)而在 X 和 Y 之间学习到虚假关联的模型,在故意改变 X 时很可能无法预测其效果。一个正确包含 Z 的模型可以潜在地估计 P(Y∣do(X))。
实际考量
将因果特征管理付诸实施涉及应对多项实际挑战:
- 不完整的因果知识: 真实的因果图很少能完全已知。敏感性分析(第1章)对于评估假设违反如何影响结论变得重要。使用从发现算法或专家启发得出的合理DAG集合是另一种策略。
- 预测与因果的权衡: 在优化静态测试集上的预测准确性与基于因果依据选择特征之间可能存在权衡。代理变量,甚至结果的效应,可能会提高短期预测,但会掩盖因果效应或在干预下失效。机器学习系统的具体目标(纯预测、决策支持、科学理解)必须决定这种平衡。
- 复杂性与可扩展性: 应用因果发现算法或执行复杂调整可能计算量很大,尤其是在高维数据的情况下。由部分因果知识或领域专长指导的更简单启发式方法通常是必要的折衷。
“将因果原则整合到特征工程和选择中,使其从一个纯粹的统计优化任务转变为一个更具推理性、基于数据生成机制假设的过程。这种转变对于构建不仅具有预测性,而且在决策制定场景中可靠、可解释且可操作的机器学习系统非常重要。”