Skip to content

Module 2 本章介绍(因果图与结构因果模型)

因果推断的语言:从直觉到严谨的图形工具

难度重要性


为什么因果图排在第二章?

学完 Module 1(反事实框架与 RCT)后,你已经理解了因果推断的核心问题:我们永远无法同时观察到同一个体在不同处理状态下的结果。RCT 通过随机化解决了这个问题,但在绝大多数社会科学研究中,我们面对的是观察性数据

这就引出一个关键问题:

在没有随机实验的情况下,我们如何判断哪些变量应该控制、哪些不应该控制、以及因果效应是否可以被识别?

答案就是因果图(Causal Graphs)和结构因果模型(Structural Causal Models, SCM)。

为什么这一章如此重要?

因果图不仅仅是一种可视化工具——它是因果推断的通用语言。本书后续所有的识别策略都可以(也应该)用因果图来理解:

后续章节核心方法因果图的角色
Module 7匹配与倾向得分后门准则告诉我们:何时"条件化于 X"能识别因果效应
Module 8工具变量(IV)DAG 清晰展示 IV 的三个假设(相关性、排除性、外生性)
Module 9面板数据与固定效应图形理解"固定效应消除了哪些混淆路径"
Module 10双重差分(DID)平行趋势假设的图形含义
Module 11断点回归(RDD)断点处的"局部随机化"在 DAG 中的表达

一句话总结:如果 Module 1 教你"什么是因果效应",那么 Module 2 教你"如何判断因果效应能否被识别"。


Pearl 的因果革命

Judea Pearl(2011 年图灵奖得主)在《The Book of Why》(2018)中提出了人类因果认知的三个层次——因果阶梯(The Ladder of Causation):

Level 1: 关联(Association)——"看到"

  • 问题: "如果我看到 ,关于 我能推断什么?"
  • 数学: - 条件概率
  • 例子: "吸烟者的肺癌率更高"

Level 2: 干预(Intervention)——"做"

  • 问题: "如果我 ,会发生什么?"
  • 数学: - 干预分布
  • 例子: "如果强制戒烟,肺癌率会如何变化?"

Level 3: 反事实(Counterfactual)——"如果当初"

  • 问题: "如果我当初做了 ,会怎样?"
  • 数学: - 反事实概率
  • 例子: "如果这个已患癌的吸烟者当初没吸烟,他还会得癌症吗?"

关键差异

直觉

  • : 被动观察
  • : 主动干预
  • : 时光倒流

因果图和 do-算子正是 Pearl 用来连接这三个层次的核心工具。本章将系统地介绍这套工具。


本章核心内容

第 2 节:有向无环图基础

核心思想:用图形表示变量之间的因果关系

  • DAG 的定义与基本元素(节点、有向边、路径)
  • 节点类型:处理变量、结果变量、混淆变量、中介变量、对撞变量
  • 三种基本结构:链(Chain)、分叉(Fork)、对撞(Collider)
  • 每种结构对信息流的影响

案例

简单因果:     X → Y
混淆:         Z → X, Z → Y
中介:         X → M → Y
对撞:         X → Z ← Y

第 3 节:d-分离与后门准则

核心思想:如何从图中"读出"变量之间的独立性,以及如何选择控制变量

  • d-分离的定义与判断规则
  • 后门准则(Backdoor Criterion):Pearl 提出的识别因果效应的核心条件
  • 后门调整公式:
  • 与遗漏变量偏差(OVB)的联系

关键洞察:这就是传统回归"控制变量"策略的理论基础!

第 4 节:碰撞偏差与控制变量选择

核心思想:不是所有变量都应该控制——控制错误的变量可能比不控制更糟

  • 对撞变量的性质:天然阻断路径,控制后反而打开路径
  • "好控制"与"坏控制"的区分
  • 三个生动案例:性别歧视与职业选择、电影明星的美貌与才华、警察使用武力研究
  • 实践中的变量选择指南

核心原则:没有理论指导,就无法进行有效的因果推断。

第 5 节:do-算子与前门准则

核心思想:当存在不可观测混淆变量时,如何识别因果效应

  • do-算子的形式化定义
  • 前门准则(Frontdoor Criterion):利用中介变量绕过不可观测混淆
  • 吸烟→焦油→肺癌的经典例子
  • DoWhy 库的 Python 实现

学习目标

完成本章后,你将能够:

能力具体目标
概念理解理解 DAG 的定义和三种基本结构
掌握 d-分离规则和条件独立性的图形判断
理解后门准则和前门准则的含义与区别
技术掌握能够为研究问题画出正确的 DAG
判断给定 DAG 中哪些变量集满足后门准则
识别对撞变量,避免"坏控制"陷阱
实战能力使用 Python(DoWhy 库)进行因果图建模与分析
用图形语言理解 IV、DID、RDD 等方法的识别假设
为自己的研究项目构建和论证 DAG

与其他模块的联系

前置知识

  • Module 1: 反事实框架、潜在结果、ATE/ATT 等核心概念
  • 基础概率论(条件概率、独立性)

后续应用

  • Module 7: 匹配与倾向得分——后门准则的直接应用
  • Module 8: 工具变量——IV 假设的图形验证
  • Module 10: DID——平行趋势假设的图形理解
  • Module 11: RDD——局部随机化的图形表达
  • Module 13: 异质性处理效应——CATE 估计的因果假设

两大流派的统一

本章还将讨论 Pearl 的 DAG 框架与 Rubin 的潜在结果框架之间的关系:

两者等价,但 DAG 提供了更直观的可视化工具,帮助研究者明确并论证识别假设。


推荐阅读

经典教材

  1. Pearl (2009): Causality: Models, Reasoning, and Inference
    • DAG 与因果推断的权威教材
  2. Pearl, Glymour & Jewell (2016): Causal Inference in Statistics: A Primer
    • 入门级别,适合初学者
  3. Cunningham (2021): Causal Inference: The Mixtape, Chapter 3
    • 实用导向,大量直觉解释

前沿论文

  • Imbens (2020): "Potential Outcome and Directed Acyclic Graph Approaches to Causality"
  • Pearl (2011): Turing Award Lecture - "The Algorithmization of Counterfactuals"

准备好了吗?

因果图是因果推断最强大的思维工具。掌握它,你将:

  • 拥有分析任何因果问题的图形语言
  • 能够判断"控制哪些变量"才能正确识别因果效应
  • 避免社会科学研究中最常见的变量选择错误
  • 为后续所有识别策略建立统一的理论框架

"Causal inference is not a statistical problem — it is a problem of translating causal assumptions into statistical estimands."— Judea Pearl, 2011 Turing Award Winner

让我们开始学习因果图的语言!


本章文件清单

module-2_Causal Graphs and SCM/
├── 2.1-本章介绍.md                    # 本文件
├── 2.2-有向无环图基础.md               # DAG 定义与基本结构
├── 2.3-d-分离与后门准则.md             # d-分离规则与后门调整
├── 2.4-碰撞偏差与控制变量选择.md        # 对撞偏差与好/坏控制
└── 2.5-do-算子与前门准则.md            # do-calculus 与前门准则

预计学习时间:10-14 小时 难度系数:⭐⭐⭐⭐(需要图论直觉与抽象思维) 实用性:⭐⭐⭐⭐⭐(贯穿全书的核心工具)


下一节: 2.2 有向无环图基础

基于 MIT 许可证发布。内容版权归作者所有。