7.6 本章小结
匹配与倾向得分方法:选择性可观测的因果识别
核心要点回顾
1. 匹配的本质
匹配方法的核心逻辑:
"可比"的定义: 在可观测特征上尽可能相似
前提: 条件独立性假设(CIA) —
2. 倾向得分的突破
Rosenbaum & Rubin (1983) 定理: 如果CIA成立,则
含义: 不需要在高维上匹配,只需在一维上匹配!
3. 三大估计方法
PSM: 基于匹配,主要估计ATT
IPW: 加权创造"伪RCT",直接估计ATE
Doubly Robust: 结合两者,双重保险
方法对比总结
估计方法比较
| 方法 | 估计目标 | 核心思想 | 需要正确的模型 | 优势 | 劣势 |
|---|---|---|---|---|---|
| 精确匹配 | ATT | 完全相同的 | 无 | 无参数假设 | 维度诅咒 |
| PSM | ATT | 上匹配 | 降维 | 依赖倾向得分模型 | |
| IPW | ATE | 逆概率加权 | 估计ATE | 极端权重不稳定 | |
| Doubly Robust | ATE | 回归+加权 | 或 | 双重稳健 | 两模型都错则失效 |
假设与检验
| 假设 | 可检验? | 检验方法 | 违反后果 |
|---|---|---|---|
| CIA | 不可检验 | 敏感性分析(Rosenbaum Bounds) | 有偏估计 |
| 共同支撑 | 可检验 | 倾向得分分布重叠图 | 匹配/加权失效 |
| 平衡性 | 可检验 | Love Plot, SMD | 估计不可靠 |
关键公式汇总
倾向得分
PSM-ATT
IPW-ATE
Doubly Robust
实践清单
分析前
- [ ] 画出因果图(DAG),确认满足后门准则
- [ ] 确认CIA假设的合理性(领域知识)
- [ ] 检查处理变量和协变量的分布
分析中
- [ ] 估计倾向得分
- [ ] 检查共同支撑(绘制两组的分布)
- [ ] 进行匹配/加权
- [ ] 检查平衡性(Love Plot, SMD < 10%)
- [ ] 使用多种方法(PSM, IPW, DR)估计效应
分析后
- [ ] 敏感性分析(Rosenbaum Bounds)
- [ ] 比较不同方法的结果
- [ ] 报告共同支撑修剪的信息
- [ ] 讨论CIA假设的局限性
️ 最常犯的错误
错误 1: 不检查共同支撑
LaLonde 案例的教训: 没有共同支撑,一切调整都无效。
- 务必绘制两组倾向得分分布图
- 修剪不重叠区域,报告修剪前后的样本量
错误 2: 不做平衡性检验
匹配/加权的目的是使两组可比。如果匹配后SMD仍然很大,说明方法失败。
- 务必报告Love Plot
错误 3: 只报告一种方法
PSM、IPW、DR可能给出不同结果。如果差异很大,说明结果对方法选择敏感。
- 务必报告多种方法的结果
错误 4: 对CIA过度自信
CIA是不可检验的强假设。如果存在重要的未观测混淆变量,所有匹配方法都会失败。
- 务必做敏感性分析
- 考虑使用IV、DID等不依赖CIA的方法
与后续章节的连接
当 CIA 不成立时怎么办?
本章的方法都依赖"基于可观测变量的选择"假设。当这个假设不合理时,我们需要其他识别策略:
| 后续章节 | 方法 | 何时使用 | 核心优势 |
|---|---|---|---|
| Module 8 | 工具变量(IV) | 存在外生变异源 | 允许未观测混淆 |
| Module 9 | 面板数据/FE | 有面板数据 | 消除时不变混淆 |
| Module 10 | DID | 有政策时间变异 | 消除组间固定差异和时间趋势 |
| Module 11 | RDD | 存在断点规则 | 断点处近似随机化 |
方法选择指南
是否有随机实验?
├── 是 → RCT (Module 1)
└── 否 → 是否有充分的可观测混淆变量?
├── 是 → 匹配/PSM/IPW (Module 7, 本章)
└── 否 → 是否有工具变量?
├── 是 → IV/2SLS (Module 8)
└── 否 → 是否有面板数据和政策冲击?
├── 是 → DID (Module 10) / FE (Module 9)
└── 否 → 是否有断点规则?
├── 是 → RDD (Module 11)
└── 否 → 考虑敏感性分析 + 多方法比较推荐阅读
奠基性论文
Rosenbaum, P. R., & Rubin, D. B. (1983). "The Central Role of the Propensity Score in Observational Studies for Causal Effects." Biometrika, 70(1), 41-55.
LaLonde, R. J. (1986). "Evaluating the Econometric Evaluations of Training Programs with Experimental Data." American Economic Review, 76(4), 604-620.
Dehejia, R. H., & Wahba, S. (1999). "Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs." Journal of the American Statistical Association, 94(448), 1053-1062.
方法论论文
Bang, H., & Robins, J. M. (2005). "Doubly Robust Estimation in Missing Data and Causal Inference Models." Biometrics, 61(4), 962-973.
King, G., & Nielsen, R. (2019). "Why Propensity Scores Should Not Be Used for Matching." Political Analysis, 27(4), 435-454.
教材
- Cunningham (2021). Causal Inference: The Mixtape, Chapter 5
- Angrist & Pischke (2009). Mostly Harmless Econometrics, Chapter 3
- Imbens & Rubin (2015). Causal Inference for Statistics, Social, and Biomedical Sciences, Part III
准备好了吗?
匹配与倾向得分方法是因果推断工具箱中最基础也最常用的工具之一。但它依赖一个强假设(CIA)——当这个假设不合理时,我们需要更巧妙的识别策略。
下一章,我们将学习**工具变量(IV)**方法——它允许存在未观测混淆,通过找到一个"外生变异源"来识别因果效应。
倾向得分:匹配的降维艺术!
上一节: 7.5 经典案例与Python实现 | 下一章: Module 8 工具变量与两阶段最小二乘