Skip to content

2.2 有向无环图基础

Judea Pearl的因果革命:从相关到因果的认知飞跃

难度方法应用


有向无环图(DAG)

定义

DAG (Directed Acyclic Graph):

  • 节点(Node): 变量
  • 有向边(Directed Edge): 因果关系
  • 无环(Acyclic): 没有这样的循环

例子:

简单DAG:
    X → Y

混淆DAG:
      Z
     / \
    ↓   ↓
    X → Y

中介DAG:
    X → M → Y

对撞DAG:
    X → Z ← Y

图形元素

1. 路径(Path): 节点序列,忽略箭头方向

2. 有向路径(Directed Path): 沿箭头方向的路径

3. 父节点(Parent): ,则的父节点

4. 子节点(Child): 的子节点

5. 祖先(Ancestor): 沿有向路径可达

6. 后代(Descendant): 反向


三种基本结构

链(Chain):

  • 中介变量
  • 控制 → 阻断路径
  • 直觉: 通过间接影响;如果我们固定了,就切断了这条信息传递链

分叉(Fork):

  • 混淆变量
  • 控制 → 阻断路径
  • 直觉: 同时影响,制造了之间的虚假关联;控制后,虚假关联消失

对撞(Collider):

  • 对撞变量
  • 不控制 → 路径阻断
  • 控制 → 路径打开(危险!)
  • 直觉: 各自独立地影响;当我们不看时,无关;但当我们固定的值后,知道的信息就能推断——这是人为制造的关联

节点类型详解

处理变量(Treatment)

我们关心其因果效应的变量,通常记为

结果变量(Outcome)

我们关心的因变量,通常记为

混淆变量(Confounder)

同时影响处理变量和结果变量的变量。必须控制以消除虚假关联。

      Z (混淆变量)
     / \
    ↓   ↓
    D → Y

例子: 研究"教育→收入"时,家庭背景同时影响教育和收入,是混淆变量。

中介变量(Mediator)

位于处理变量和结果变量之间因果链上的变量。

    D → M → Y

例子: 研究"教育→收入"时,"技能"是中介变量(教育→技能→收入)。

注意: 是否控制中介变量取决于研究问题——如果关心总效应则不控制,如果关心直接效应则控制。

对撞变量(Collider)

同时受到两个或多个变量影响的变量。

    D → Z ← Y

例子: "才能→录用←关系"——才能和关系都影响是否被录用。

核心规则: 对撞变量不应该控制!控制它会在之间制造虚假关联。


路径概念详解

有向路径(Directed Path)

从一个节点沿箭头方向可以到达另一个节点的路径。

X → M → Y    (X到Y的有向路径)

含义: 有向路径代表因果效应的传递方向。

后门路径(Backdoor Path)

的路径中,有箭头指向的路径。

      Z
     / \
    ↓   ↓
    X → Y

后门路径: X ← Z → Y

含义: 后门路径是虚假关联(混淆偏差)的来源。要识别的因果效应,必须阻断所有后门路径。

前门路径(Frontdoor Path)

的有向路径(箭头方向一致)。

X → M → Y    (前门路径)

含义: 前门路径是因果效应的传递路径。


从图到独立性

DAG 的强大之处在于:我们可以从图结构直接推导出变量之间的统计独立性关系。

因果马尔可夫条件(Causal Markov Condition)

给定一个节点的所有父节点,该节点条件独立于它的所有非后代节点。

含义: 图结构蕴含了一组条件独立性关系,这些关系可以用数据来检验。

忠实性假设(Faithfulness)

DAG 蕴含的独立性关系是数据中独立性关系的全部来源。

含义: 数据中不存在"巧合的"独立性——所有独立性都可以从图中解读。


基本例子

例子 1: 教育、能力与收入

    能力(U)
     / \
    ↓   ↓
  教育 → 收入
  • 能力是混淆变量
  • 简单回归"收入 ~ 教育"会高估教育的因果效应
  • 需要控制能力(后门准则)
  • 但能力通常不可观测——这正是需要 IV 等方法的原因

例子 2: 吸烟、焦油与肺癌

     基因(U, 不可观测)
    /              \
   ↓                ↓
吸烟(X) → 焦油(M) → 肺癌(Y)
  • 基因是不可观测的混淆变量
  • 后门路径 无法通过控制 来阻断
  • 但焦油可能满足前门准则(详见 2.5 节)

例子 3: 招聘中的对撞偏差

    才能 → 录用 ← 关系
  • 只观察被录用的人(条件化于"录用")
  • 在被录用者中,"才能"和"关系"出现负相关
  • 这是对撞偏差,不是真实的因果关系

本节小结

核心要点

1. DAG 的基本元素:

  • 节点 = 变量
  • 有向边 = 因果关系
  • 无环 = 因果关系没有循环

2. 三种基本结构:

结构图形不控制中间变量控制中间变量
(Chain)路径打开路径阻断
分叉(Fork)路径打开路径阻断
对撞(Collider)路径阻断路径打开

3. 后门路径: 虚假关联的来源,需要被阻断

4. 核心规则: 混淆变量要控制,对撞变量不要控制!


上一节: 2.1 本章介绍 | 下一节: 2.3 d-分离与后门准则

基于 MIT 许可证发布。内容版权归作者所有。