Module 7 本章介绍（匹配与倾向得分方法）

Rosenbaum & Rubin的降维奇迹:从高维匹配到单一标量

为什么匹配方法排在 IV 和 DID 之前？

在因果推断的识别策略谱系中,匹配与倾向得分方法是最直接、最直觉的**"基于可观测变量的选择"(selection on observables)**方法。

核心思想极其朴素: 如果我们能找到一个与处理组个体"几乎完全一样"但没有接受处理的对照个体,那么两者结果的差异就是因果效应。

这个思想直接对应 Module 1 中的反事实框架:

处理组个体: 观察到
匹配的对照个体: 提供了的估计
因果效应:

在本书体系中的位置

模块	方法	识别来源	核心假设
Module 7	匹配/PSM/IPW	可观测变量的条件独立	CIA（无未观测混淆）
Module 8	工具变量(IV)	外生变异	排除性约束
Module 9	面板数据/FE	组内变异	严格外生性
Module 10	DID	时间+组别差分	平行趋势
Module 11	RDD	断点处随机	连续性假设

匹配方法排在最前面,是因为它的假设最容易理解(虽然最强),实现最直接,也最容易与 Module 1 的反事实思想和 Module 2 的因果图语言相衔接。

从反事实到匹配的逻辑链

Module 1 告诉我们

根本问题: 对于每个个体,我们只能观察到一个潜在结果——或,不能同时观察两个。

RCT 的解决方案: 随机分配使得 ,处理组和对照组可比。

Module 2 告诉我们

后门准则: 如果存在一组可观测变量,使得控制后所有后门路径被阻断,则:

DAG 语言: 匹配方法有效的条件是——满足后门准则。

Module 7 的核心问题

观察性数据中的选择偏差:

匹配的解决方案: 通过在上匹配,使得匹配后的处理组和对照组可比——消除选择偏差。

倾向得分的突破: Rosenbaum & Rubin (1983) 证明,不需要在高维上匹配,只需在单一标量上匹配即可!

本章核心内容

第 2 节: 匹配方法基础

精确匹配(Exact Matching): 维度诅咒的起点
粗化精确匹配(Coarsened Exact Matching, CEM)
距离匹配(Distance-based Matching): 马氏距离等
最近邻匹配(Nearest Neighbor Matching)
匹配的直觉与局限

第 3 节: 倾向得分估计

倾向得分定理: 从高维到一维
Logistic回归估计倾向得分
倾向得分匹配(PSM): 算法与实现
卡尺匹配(Caliper Matching): 限制匹配质量
核匹配(Kernel Matching): 加权方法

第 4 节: IPW 与双重稳健估计

逆概率加权(Inverse Probability Weighting, IPW)
稳定权重与权重截断
双重稳健估计(Doubly Robust, DR): "双重保险"
共同支撑(Common Support/Overlap)条件

第 5 节: 经典案例与 Python 实现

LaLonde (1986): 非实验方法的灾难性失败
Dehejia & Wahba (1999): 倾向得分方法的"修复"
完整 Python 实现: PSM、IPW、DR 的对比
平衡性检验(Love Plot)与敏感性分析

第 6 节: 本章小结

方法对比总结表
适用条件与局限
与后续章节的连接

学习目标

完成本章后,你将能够:

能力	具体目标
概念理解	深刻理解条件独立性假设(CIA)和倾向得分定理
	掌握"选择性偏差"的本质及其消除逻辑
	理解共同支撑条件为什么至关重要
技术掌握	掌握PSM、IPW、Doubly Robust三大方法
	进行平衡性检验和敏感性分析
	区分ATE、ATT的估计策略
实战能力	完整复现LaLonde (1986)就业培训评估
	使用Python实现(sklearn + causalml + econml)
	正确诊断和报告匹配分析结果

核心假设预览

假设 1: 条件独立性(CIA)

白话: 给定观测到的协变量,处理分配与潜在结果独立。

Module 2 的语言: 满足后门准则。

关键: 这是一个不可检验的假设!它要求没有未观测的混淆变量。

假设 2: 共同支撑(Common Support)

白话: 对于任何特征组合,个体都有正概率接受或不接受处理。

如果违反: 某些处理个体找不到可比的对照个体——匹配失败。

与其他模块的联系

前置知识

Module 1: 反事实框架、ATE/ATT、选择偏差
Module 2: 后门准则、DAG（何时"条件化于X"有效）
Module 3-5: Python 基础、回归分析、数据处理

后续应用

Module 8: 工具变量——当CIA不成立时怎么办
Module 10: DID——利用时间变异而非协变量调整
Module 13: 异质性处理效应——从ATE到CATE

方法比较

特征	匹配/PSM	回归调整
假设	CIA + Common Support	CIA + 函数形式
优势	非参数、不依赖函数形式	实现简单
劣势	维度诅咒(精确匹配)	对误设敏感
适用	二元处理、中等样本	连续处理、大样本

准备好了吗?

匹配与倾向得分方法是观察性研究中最常用的因果识别策略之一。掌握它,你将能够:

从观察数据中构建可比的处理组和对照组
使用多种方法(PSM、IPW、DR)估计因果效应
正确诊断方法的有效性(平衡性检验、敏感性分析)
理解"选择性可观测"假设的局限性

"The propensity score is the probability of treatment assignment conditional on observed baseline characteristics."— Paul Rosenbaum & Donald Rubin, 1983

让我们开始学习匹配方法!

本章文件清单

module-7_Matching and PSM/
├── 7.1-本章介绍.md                    # 本文件
├── 7.2-匹配方法基础.md                # 精确匹配、距离匹配、最近邻
├── 7.3-倾向得分估计.md                # 倾向得分定理与PSM
├── 7.4-IPW与双重稳健估计.md            # IPW、DR、共同支撑
├── 7.5-经典案例与Python实现.md         # LaLonde案例、完整代码
└── 7.6-本章小结.md                    # 方法比较与总结

预计学习时间: 14-18 小时 难度系数: ⭐⭐⭐⭐（需要扎实的概率论和回归基础） 实用性: ⭐⭐⭐⭐⭐（观察性研究的必备工具）

下一节: 7.2 匹配方法基础

Module 7 本章介绍（匹配与倾向得分方法）

为什么匹配方法排在 IV 和 DID 之前？

在本书体系中的位置

从反事实到匹配的逻辑链

Module 1 告诉我们

Module 2 告诉我们

Module 7 的核心问题

本章核心内容

第 2 节: 匹配方法基础

第 3 节: 倾向得分估计

第 4 节: IPW 与双重稳健估计

第 5 节: 经典案例与 Python 实现

第 6 节: 本章小结

学习目标

核心假设预览

假设 1: 条件独立性(CIA)

假设 2: 共同支撑(Common Support)

与其他模块的联系

前置知识

后续应用

方法比较

推荐阅读

经典教材

前沿论文

准备好了吗?

本章文件清单

Module 7 本章介绍（匹配与倾向得分方法） ​

为什么匹配方法排在 IV 和 DID 之前？ ​

在本书体系中的位置 ​

从反事实到匹配的逻辑链 ​

Module 1 告诉我们 ​

Module 2 告诉我们 ​

Module 7 的核心问题 ​

本章核心内容 ​

第 2 节: 匹配方法基础 ​

第 3 节: 倾向得分估计 ​

第 4 节: IPW 与双重稳健估计 ​

第 5 节: 经典案例与 Python 实现 ​

第 6 节: 本章小结 ​

学习目标 ​

核心假设预览 ​

假设 1: 条件独立性(CIA) ​

假设 2: 共同支撑(Common Support) ​

与其他模块的联系 ​

前置知识 ​

后续应用 ​

方法比较 ​

推荐阅读 ​

经典教材 ​

前沿论文 ​

准备好了吗? ​

本章文件清单 ​

Module 7 本章介绍（匹配与倾向得分方法）

为什么匹配方法排在 IV 和 DID 之前？

在本书体系中的位置

从反事实到匹配的逻辑链

Module 1 告诉我们

Module 2 告诉我们

Module 7 的核心问题

本章核心内容

第 2 节: 匹配方法基础

第 3 节: 倾向得分估计

第 4 节: IPW 与双重稳健估计

第 5 节: 经典案例与 Python 实现

第 6 节: 本章小结

学习目标

核心假设预览

假设 1: 条件独立性(CIA)

假设 2: 共同支撑(Common Support)

与其他模块的联系

前置知识

后续应用

方法比较

推荐阅读

经典教材

前沿论文

准备好了吗?

本章文件清单