7.2 匹配方法基础
从精确匹配到距离匹配:解决维度诅咒的初次尝试
观察性数据的根本问题
场景: 评估就业培训项目的效应
理想: RCT - 随机分配谁接受培训
现实: 观察性数据 - 人们自己选择是否参加
选择性偏差(Selection Bias):
问题: 参加培训的人本来就可能与不参加的人不同!
匹配的核心直觉
匹配的基本思想
核心思想: 找到"可比"的对照个体
对于每个处理个体,找到一个(或多个)协变量尽可能相似的对照个体,然后用作为的估计。
逻辑链:
- 如果(两人"几乎一样")
- 且(一个接受处理,一个没有)
- 在CIA假设下:
- 因此:
精确匹配(Exact Matching)
定义
对于每个处理个体,找到特征完全相同的对照个体:
ATT估计
其中是与处理个体精确匹配的对照个体集合。
维度诅咒
问题: 如果有个连续变量,找到精确匹配几乎不可能!
例子:
- 年龄: 25岁 vs 25.5岁?
- 收入: $30,000 vs $30,100?
- 教育: 12年 vs 12.5年?
维度诅咒: 随着,精确匹配个体数
数值说明: 假设每个变量被分为10个区间,
- : 个单元格 — 还行
- : 个单元格 — 很多单元格为空
- : 个单元格 — 几乎所有单元格为空
粗化精确匹配(Coarsened Exact Matching, CEM)
思想
Iacus, King & Porro (2012)
将连续变量粗化(coarsen)为类别,然后进行精确匹配:
步骤1: 将每个连续变量划分为若干区间
- 年龄: [18-25), [25-35), [35-45), [45+)
- 收入: [0-20k), [20k-50k), [50k-100k), [100k+)
步骤2: 在粗化后的类别上进行精确匹配
步骤3: 在匹配后的样本上估计因果效应
优势
- 减少了维度诅咒
- 研究者可以控制匹配精度(区间越细,匹配越精确,但匹配率越低)
- 不依赖参数模型
局限
- 粗化方案的选择有一定主观性
- 如果协变量太多,仍然会面临匹配率过低的问题
距离匹配(Distance-based Matching)
马氏距离(Mahalanobis Distance)
不要求精确匹配,而是根据距离找最接近的对照个体。
马氏距离定义:
其中是协变量的样本协方差矩阵。
优点: 考虑了变量之间的相关性和尺度差异
缺点: 在高维情况下仍可能表现不佳
欧氏距离(Euclidean Distance)
问题: 对变量的尺度敏感(需要先标准化)
最近邻匹配(Nearest Neighbor Matching)
算法
1:1 最近邻匹配:
对于每个处理个体,找到距离最近的对照个体:
1:k 匹配:
找到个最近的对照个体,用它们的平均结果作为反事实估计。
有放回 vs 无放回
有放回匹配(With Replacement):
- 同一个对照个体可以被多次匹配
- 优点: 匹配质量更高
- 缺点: 有效样本量减少
无放回匹配(Without Replacement):
- 每个对照个体最多被匹配一次
- 优点: 每个观测独立
- 缺点: 后匹配的处理个体可能匹配质量差
ATT估计
匹配方法的比较
| 方法 | 匹配精度 | 适用维度 | 匹配率 | 参数假设 |
|---|---|---|---|---|
| 精确匹配 | 最高 | 低维/离散 | 低 | 无 |
| CEM | 高 | 中维 | 中 | 无 |
| 马氏距离 | 中 | 中维 | 高 | 正态分布 |
| 最近邻 | 取决于数据 | 中维 | 高 | 无 |
| 倾向得分匹配 | 取决于模型 | 高维 | 高 | 倾向得分模型 |
核心困境: 匹配方法在低维情况下效果好,但真实数据往往是高维的。
这正是倾向得分方法的突破口 — 将高维匹配问题降至一维!
本节小结
核心要点
1. 匹配的本质: 为每个处理个体找到可比的对照个体,用对照个体的结果估计反事实
2. 维度诅咒: 精确匹配在高维情况下几乎不可行
3. 距离匹配: 通过定义距离度量,放松精确匹配的要求
4. 最近邻匹配: 最常用的距离匹配方法
5. 核心局限: 所有匹配方法都依赖CIA假设(无未观测混淆)
下一步
匹配方法的维度诅咒问题促使 Rosenbaum & Rubin (1983) 提出了倾向得分定理——这是下一节的核心内容。
上一节: 7.1 本章介绍 | 下一节: 7.3 倾向得分估计