趋近智
尽管有向无环图(DAG)是表示结构因果模型(SCM)中因果假设的主要工具,机器学习 (machine learning)系统常有复杂情况,使得基本DAG的表示能力不足。了解更精密的图形表示方法对有效处理隐藏混淆、选择偏差和反馈机制等问题很必要。
标准DAG通过d-分离编码条件独立关系,这支撑着后门准则和前门准则等识别依据。然而,它们隐含地假设所有相关变量都可观测,并且系统是无环的。当这些假设被违反,或者我们需要表示选择过程等更复杂的机制时,我们会转向扩展的图形框架。
常见问题是存在未观测(潜在)的混淆变量。尽管DAG可以包含潜在变量(常用表示),但在边际化这些变量后,分析图会导致结构不再是简单的DAG。对潜在共同原因进行边际化会引入仅凭观测变量之间的有向边无法表示的依赖关系。
最大祖先图(MAG): 这些图将DAGs推广,以包含双向边()。双向边表示和之间存在未观测的共同原因。MAG表示在将底层DAG中的潜在变量边际化后,观测变量之间成立的条件独立结构。MAG中的分离由m-分离定义,这是一个比d-分离更复杂的准则。
部分祖先图(PAG): PAG更为通用。它们产生于基于约束的发现算法(例如第二章中介绍的FCI),当可能存在潜在变量时。PAG可以包含有向边()、双向边()和部分定向边(例如 , )。这些部分定向边表示由于潜在的隐藏变量或统计等价模型而导致对精确因果结构的不确定性。
在DAG中边际化潜在混淆变量,导致相应的MAG中和之间出现双向边,这表示存在共享的隐藏混淆。
选择偏差发生在数据点纳入分析时依赖于系统内的变量,通常是通过以碰撞点或碰撞点的后代为条件,这会引起虚假关联。标准DAG不显式表示选择机制本身。
选择图(通常基于SWIGs - 单一干预图): 这些图通过添加一个节点(通常是),表示选择事件(例如,如果被选中,;否则,),来增强原始DAG。箭头从影响选择的变量指向。以为条件分析图(这发生在有偏数据中)使得选择的效果变得显式。
这是一个选择图,其中选择依赖于碰撞点。以为条件(仅分析选定的数据)会通过碰撞点打开路径,这可能在和之间产生虚假关联。
这些高级图形表示不只是一种符号便利。它们带有各自的图形准则,用于确定因果效应的可识别性。
“理解这些表示方法是应用本章后面讨论的高级识别策略的第一步,并运用后续章节中涵盖的因果发现和估计技术,特别是在处理机器学习 (machine learning)系统常见的复杂、高维和可能存在偏差的数据时。它们提供了表达复杂数据生成过程假设所需的正式语言。”
这部分内容有帮助吗?
© 2026 ApX Machine LearningAI伦理与透明度•