Skip to content

Module 7 本章介绍(匹配与倾向得分方法)

Rosenbaum & Rubin的降维奇迹:从高维匹配到单一标量

难度重要性


为什么匹配方法排在 IV 和 DID 之前?

在因果推断的识别策略谱系中,匹配与倾向得分方法是最直接、最直觉的**"基于可观测变量的选择"(selection on observables)**方法。

核心思想极其朴素: 如果我们能找到一个与处理组个体"几乎完全一样"但没有接受处理的对照个体,那么两者结果的差异就是因果效应。

这个思想直接对应 Module 1 中的反事实框架:

  • 处理组个体: 观察到
  • 匹配的对照个体: 提供了 的估计
  • 因果效应:

在本书体系中的位置

模块方法识别来源核心假设
Module 7匹配/PSM/IPW可观测变量的条件独立CIA(无未观测混淆)
Module 8工具变量(IV)外生变异排除性约束
Module 9面板数据/FE组内变异严格外生性
Module 10DID时间+组别差分平行趋势
Module 11RDD断点处随机连续性假设

匹配方法排在最前面,是因为它的假设最容易理解(虽然最强),实现最直接,也最容易与 Module 1 的反事实思想和 Module 2 的因果图语言相衔接。


从反事实到匹配的逻辑链

Module 1 告诉我们

根本问题: 对于每个个体,我们只能观察到一个潜在结果——,不能同时观察两个。

RCT 的解决方案: 随机分配使得 ,处理组和对照组可比

Module 2 告诉我们

后门准则: 如果存在一组可观测变量,使得控制后所有后门路径被阻断,则:

DAG 语言: 匹配方法有效的条件是——满足后门准则。

Module 7 的核心问题

观察性数据中的选择偏差:

匹配的解决方案: 通过在上匹配,使得匹配后的处理组和对照组可比——消除选择偏差。

倾向得分的突破: Rosenbaum & Rubin (1983) 证明,不需要在高维上匹配,只需在单一标量上匹配即可!


本章核心内容

第 2 节: 匹配方法基础

  • 精确匹配(Exact Matching): 维度诅咒的起点
  • 粗化精确匹配(Coarsened Exact Matching, CEM)
  • 距离匹配(Distance-based Matching): 马氏距离等
  • 最近邻匹配(Nearest Neighbor Matching)
  • 匹配的直觉与局限

第 3 节: 倾向得分估计

  • 倾向得分定理: 从高维到一维
  • Logistic回归估计倾向得分
  • 倾向得分匹配(PSM): 算法与实现
  • 卡尺匹配(Caliper Matching): 限制匹配质量
  • 核匹配(Kernel Matching): 加权方法

第 4 节: IPW 与双重稳健估计

  • 逆概率加权(Inverse Probability Weighting, IPW)
  • 稳定权重权重截断
  • 双重稳健估计(Doubly Robust, DR): "双重保险"
  • 共同支撑(Common Support/Overlap)条件

第 5 节: 经典案例与 Python 实现

  • LaLonde (1986): 非实验方法的灾难性失败
  • Dehejia & Wahba (1999): 倾向得分方法的"修复"
  • 完整 Python 实现: PSM、IPW、DR 的对比
  • 平衡性检验(Love Plot)与敏感性分析

第 6 节: 本章小结

  • 方法对比总结表
  • 适用条件与局限
  • 与后续章节的连接

学习目标

完成本章后,你将能够:

能力具体目标
概念理解深刻理解条件独立性假设(CIA)和倾向得分定理
掌握"选择性偏差"的本质及其消除逻辑
理解共同支撑条件为什么至关重要
技术掌握掌握PSM、IPW、Doubly Robust三大方法
进行平衡性检验和敏感性分析
区分ATE、ATT的估计策略
实战能力完整复现LaLonde (1986)就业培训评估
使用Python实现(sklearn + causalml + econml)
正确诊断和报告匹配分析结果

核心假设预览

假设 1: 条件独立性(CIA)

白话: 给定观测到的协变量,处理分配与潜在结果独立。

Module 2 的语言: 满足后门准则。

关键: 这是一个不可检验的假设!它要求没有未观测的混淆变量。

假设 2: 共同支撑(Common Support)

白话: 对于任何特征组合,个体都有正概率接受或不接受处理。

如果违反: 某些处理个体找不到可比的对照个体——匹配失败。


与其他模块的联系

前置知识

  • Module 1: 反事实框架、ATE/ATT、选择偏差
  • Module 2: 后门准则、DAG(何时"条件化于X"有效)
  • Module 3-5: Python 基础、回归分析、数据处理

后续应用

  • Module 8: 工具变量——当CIA不成立时怎么办
  • Module 10: DID——利用时间变异而非协变量调整
  • Module 13: 异质性处理效应——从ATE到CATE

方法比较

特征匹配/PSM回归调整
假设CIA + Common SupportCIA + 函数形式
优势非参数、不依赖函数形式实现简单
劣势维度诅咒(精确匹配)对误设敏感
适用二元处理、中等样本连续处理、大样本

推荐阅读

经典教材

  1. Rosenbaum & Rubin (1983): "The Central Role of the Propensity Score in Observational Studies for Causal Effects"
    • 倾向得分方法的奠基论文
  2. Cunningham (2021): Causal Inference: The Mixtape, Chapter 5
    • 实用导向,LaLonde案例的详细讲解
  3. Angrist & Pischke (2009): Mostly Harmless Econometrics, Chapter 3
    • 回归与匹配的统一视角

前沿论文

  • Dehejia & Wahba (1999): "Causal Effects in Nonexperimental Studies"
  • Bang & Robins (2005): "Doubly Robust Estimation in Missing Data and Causal Inference Models"
  • King & Nielsen (2019): "Why Propensity Scores Should Not Be Used for Matching"

准备好了吗?

匹配与倾向得分方法是观察性研究中最常用的因果识别策略之一。掌握它,你将能够:

  • 从观察数据中构建可比的处理组和对照组
  • 使用多种方法(PSM、IPW、DR)估计因果效应
  • 正确诊断方法的有效性(平衡性检验、敏感性分析)
  • 理解"选择性可观测"假设的局限性

"The propensity score is the probability of treatment assignment conditional on observed baseline characteristics."— Paul Rosenbaum & Donald Rubin, 1983

让我们开始学习匹配方法!


本章文件清单

module-7_Matching and PSM/
├── 7.1-本章介绍.md                    # 本文件
├── 7.2-匹配方法基础.md                # 精确匹配、距离匹配、最近邻
├── 7.3-倾向得分估计.md                # 倾向得分定理与PSM
├── 7.4-IPW与双重稳健估计.md            # IPW、DR、共同支撑
├── 7.5-经典案例与Python实现.md         # LaLonde案例、完整代码
└── 7.6-本章小结.md                    # 方法比较与总结

预计学习时间: 14-18 小时 难度系数: ⭐⭐⭐⭐(需要扎实的概率论和回归基础) 实用性: ⭐⭐⭐⭐⭐(观察性研究的必备工具)


下一节: 7.2 匹配方法基础

基于 MIT 许可证发布。内容版权归作者所有。