Module 2 本章介绍(因果图与结构因果模型)
因果推断的语言:从直觉到严谨的图形工具
为什么因果图排在第二章?
学完 Module 1(反事实框架与 RCT)后,你已经理解了因果推断的核心问题:我们永远无法同时观察到同一个体在不同处理状态下的结果。RCT 通过随机化解决了这个问题,但在绝大多数社会科学研究中,我们面对的是观察性数据。
这就引出一个关键问题:
在没有随机实验的情况下,我们如何判断哪些变量应该控制、哪些不应该控制、以及因果效应是否可以被识别?
答案就是因果图(Causal Graphs)和结构因果模型(Structural Causal Models, SCM)。
为什么这一章如此重要?
因果图不仅仅是一种可视化工具——它是因果推断的通用语言。本书后续所有的识别策略都可以(也应该)用因果图来理解:
| 后续章节 | 核心方法 | 因果图的角色 |
|---|---|---|
| Module 7 | 匹配与倾向得分 | 后门准则告诉我们:何时"条件化于 X"能识别因果效应 |
| Module 8 | 工具变量(IV) | DAG 清晰展示 IV 的三个假设(相关性、排除性、外生性) |
| Module 9 | 面板数据与固定效应 | 图形理解"固定效应消除了哪些混淆路径" |
| Module 10 | 双重差分(DID) | 平行趋势假设的图形含义 |
| Module 11 | 断点回归(RDD) | 断点处的"局部随机化"在 DAG 中的表达 |
一句话总结:如果 Module 1 教你"什么是因果效应",那么 Module 2 教你"如何判断因果效应能否被识别"。
Pearl 的因果革命
Judea Pearl(2011 年图灵奖得主)在《The Book of Why》(2018)中提出了人类因果认知的三个层次——因果阶梯(The Ladder of Causation):
Level 1: 关联(Association)——"看到"
- 问题: "如果我看到 ,关于 我能推断什么?"
- 数学: - 条件概率
- 例子: "吸烟者的肺癌率更高"
Level 2: 干预(Intervention)——"做"
- 问题: "如果我做 ,会发生什么?"
- 数学: - 干预分布
- 例子: "如果强制戒烟,肺癌率会如何变化?"
Level 3: 反事实(Counterfactual)——"如果当初"
- 问题: "如果我当初做了 ,会怎样?"
- 数学: - 反事实概率
- 例子: "如果这个已患癌的吸烟者当初没吸烟,他还会得癌症吗?"
关键差异:
直觉:
- : 被动观察
- : 主动干预
- : 时光倒流
因果图和 do-算子正是 Pearl 用来连接这三个层次的核心工具。本章将系统地介绍这套工具。
本章核心内容
第 2 节:有向无环图基础
核心思想:用图形表示变量之间的因果关系
- DAG 的定义与基本元素(节点、有向边、路径)
- 节点类型:处理变量、结果变量、混淆变量、中介变量、对撞变量
- 三种基本结构:链(Chain)、分叉(Fork)、对撞(Collider)
- 每种结构对信息流的影响
案例:
简单因果: X → Y
混淆: Z → X, Z → Y
中介: X → M → Y
对撞: X → Z ← Y第 3 节:d-分离与后门准则
核心思想:如何从图中"读出"变量之间的独立性,以及如何选择控制变量
- d-分离的定义与判断规则
- 后门准则(Backdoor Criterion):Pearl 提出的识别因果效应的核心条件
- 后门调整公式:
- 与遗漏变量偏差(OVB)的联系
关键洞察:这就是传统回归"控制变量"策略的理论基础!
第 4 节:碰撞偏差与控制变量选择
核心思想:不是所有变量都应该控制——控制错误的变量可能比不控制更糟
- 对撞变量的性质:天然阻断路径,控制后反而打开路径
- "好控制"与"坏控制"的区分
- 三个生动案例:性别歧视与职业选择、电影明星的美貌与才华、警察使用武力研究
- 实践中的变量选择指南
核心原则:没有理论指导,就无法进行有效的因果推断。
第 5 节:do-算子与前门准则
核心思想:当存在不可观测混淆变量时,如何识别因果效应
- do-算子的形式化定义
- 前门准则(Frontdoor Criterion):利用中介变量绕过不可观测混淆
- 吸烟→焦油→肺癌的经典例子
- DoWhy 库的 Python 实现
学习目标
完成本章后,你将能够:
| 能力 | 具体目标 |
|---|---|
| 概念理解 | 理解 DAG 的定义和三种基本结构 |
| 掌握 d-分离规则和条件独立性的图形判断 | |
| 理解后门准则和前门准则的含义与区别 | |
| 技术掌握 | 能够为研究问题画出正确的 DAG |
| 判断给定 DAG 中哪些变量集满足后门准则 | |
| 识别对撞变量,避免"坏控制"陷阱 | |
| 实战能力 | 使用 Python(DoWhy 库)进行因果图建模与分析 |
| 用图形语言理解 IV、DID、RDD 等方法的识别假设 | |
| 为自己的研究项目构建和论证 DAG |
与其他模块的联系
前置知识
- Module 1: 反事实框架、潜在结果、ATE/ATT 等核心概念
- 基础概率论(条件概率、独立性)
后续应用
- Module 7: 匹配与倾向得分——后门准则的直接应用
- Module 8: 工具变量——IV 假设的图形验证
- Module 10: DID——平行趋势假设的图形理解
- Module 11: RDD——局部随机化的图形表达
- Module 13: 异质性处理效应——CATE 估计的因果假设
两大流派的统一
本章还将讨论 Pearl 的 DAG 框架与 Rubin 的潜在结果框架之间的关系:
两者等价,但 DAG 提供了更直观的可视化工具,帮助研究者明确并论证识别假设。
推荐阅读
经典教材
- Pearl (2009): Causality: Models, Reasoning, and Inference
- DAG 与因果推断的权威教材
- Pearl, Glymour & Jewell (2016): Causal Inference in Statistics: A Primer
- 入门级别,适合初学者
- Cunningham (2021): Causal Inference: The Mixtape, Chapter 3
- 实用导向,大量直觉解释
前沿论文
- Imbens (2020): "Potential Outcome and Directed Acyclic Graph Approaches to Causality"
- Pearl (2011): Turing Award Lecture - "The Algorithmization of Counterfactuals"
准备好了吗?
因果图是因果推断最强大的思维工具。掌握它,你将:
- 拥有分析任何因果问题的图形语言
- 能够判断"控制哪些变量"才能正确识别因果效应
- 避免社会科学研究中最常见的变量选择错误
- 为后续所有识别策略建立统一的理论框架
"Causal inference is not a statistical problem — it is a problem of translating causal assumptions into statistical estimands."— Judea Pearl, 2011 Turing Award Winner
让我们开始学习因果图的语言!
本章文件清单
module-2_Causal Graphs and SCM/
├── 2.1-本章介绍.md # 本文件
├── 2.2-有向无环图基础.md # DAG 定义与基本结构
├── 2.3-d-分离与后门准则.md # d-分离规则与后门调整
├── 2.4-碰撞偏差与控制变量选择.md # 对撞偏差与好/坏控制
└── 2.5-do-算子与前门准则.md # do-calculus 与前门准则预计学习时间:10-14 小时 难度系数:⭐⭐⭐⭐(需要图论直觉与抽象思维) 实用性:⭐⭐⭐⭐⭐(贯穿全书的核心工具)
下一节: 2.2 有向无环图基础