Skip to content

7.2 匹配方法基础

从精确匹配到距离匹配:解决维度诅咒的初次尝试

难度方法应用


观察性数据的根本问题

场景: 评估就业培训项目的效应

理想: RCT - 随机分配谁接受培训

现实: 观察性数据 - 人们自己选择是否参加

选择性偏差(Selection Bias):

问题: 参加培训的人本来就可能与不参加的人不同!


匹配的核心直觉

匹配的基本思想

核心思想: 找到"可比"的对照个体

对于每个处理个体,找到一个(或多个)协变量尽可能相似的对照个体,然后用作为的估计。

逻辑链:

  1. 如果(两人"几乎一样")
  2. (一个接受处理,一个没有)
  3. 在CIA假设下:
  4. 因此:

精确匹配(Exact Matching)

定义

对于每个处理个体,找到特征完全相同的对照个体:

ATT估计

其中是与处理个体精确匹配的对照个体集合。

维度诅咒

问题: 如果个连续变量,找到精确匹配几乎不可能!

例子:

  • 年龄: 25岁 vs 25.5岁?
  • 收入: $30,000 vs $30,100?
  • 教育: 12年 vs 12.5年?

维度诅咒: 随着,精确匹配个体数

数值说明: 假设每个变量被分为10个区间,

  • : 个单元格 — 还行
  • : 个单元格 — 很多单元格为空
  • : 个单元格 — 几乎所有单元格为空

粗化精确匹配(Coarsened Exact Matching, CEM)

思想

Iacus, King & Porro (2012)

将连续变量粗化(coarsen)为类别,然后进行精确匹配:

步骤1: 将每个连续变量划分为若干区间

  • 年龄: [18-25), [25-35), [35-45), [45+)
  • 收入: [0-20k), [20k-50k), [50k-100k), [100k+)

步骤2: 在粗化后的类别上进行精确匹配

步骤3: 在匹配后的样本上估计因果效应

优势

  • 减少了维度诅咒
  • 研究者可以控制匹配精度(区间越细,匹配越精确,但匹配率越低)
  • 不依赖参数模型

局限

  • 粗化方案的选择有一定主观性
  • 如果协变量太多,仍然会面临匹配率过低的问题

距离匹配(Distance-based Matching)

马氏距离(Mahalanobis Distance)

不要求精确匹配,而是根据距离找最接近的对照个体。

马氏距离定义:

其中是协变量的样本协方差矩阵。

优点: 考虑了变量之间的相关性和尺度差异

缺点: 在高维情况下仍可能表现不佳

欧氏距离(Euclidean Distance)

问题: 对变量的尺度敏感(需要先标准化)


最近邻匹配(Nearest Neighbor Matching)

算法

1:1 最近邻匹配:

对于每个处理个体,找到距离最近的对照个体:

1:k 匹配:

找到个最近的对照个体,用它们的平均结果作为反事实估计。

有放回 vs 无放回

有放回匹配(With Replacement):

  • 同一个对照个体可以被多次匹配
  • 优点: 匹配质量更高
  • 缺点: 有效样本量减少

无放回匹配(Without Replacement):

  • 每个对照个体最多被匹配一次
  • 优点: 每个观测独立
  • 缺点: 后匹配的处理个体可能匹配质量差

ATT估计


匹配方法的比较

方法匹配精度适用维度匹配率参数假设
精确匹配最高低维/离散
CEM中维
马氏距离中维正态分布
最近邻取决于数据中维
倾向得分匹配取决于模型高维倾向得分模型

核心困境: 匹配方法在低维情况下效果好,但真实数据往往是高维的。

这正是倾向得分方法的突破口 — 将高维匹配问题降至一维!


本节小结

核心要点

1. 匹配的本质: 为每个处理个体找到可比的对照个体,用对照个体的结果估计反事实

2. 维度诅咒: 精确匹配在高维情况下几乎不可行

3. 距离匹配: 通过定义距离度量,放松精确匹配的要求

4. 最近邻匹配: 最常用的距离匹配方法

5. 核心局限: 所有匹配方法都依赖CIA假设(无未观测混淆)

下一步

匹配方法的维度诅咒问题促使 Rosenbaum & Rubin (1983) 提出了倾向得分定理——这是下一节的核心内容。


上一节: 7.1 本章介绍 | 下一节: 7.3 倾向得分估计

基于 MIT 许可证发布。内容版权归作者所有。