7.2 匹配方法基础

从精确匹配到距离匹配:解决维度诅咒的初次尝试

观察性数据的根本问题

场景: 评估就业培训项目的效应

理想: RCT - 随机分配谁接受培训

现实: 观察性数据 - 人们自己选择是否参加

选择性偏差(Selection Bias):

问题: 参加培训的人本来就可能与不参加的人不同!

匹配的核心直觉

匹配的基本思想

核心思想: 找到"可比"的对照个体

对于每个处理个体,找到一个(或多个)协变量尽可能相似的对照个体,然后用作为的估计。

逻辑链:

如果（两人"几乎一样"）
且（一个接受处理,一个没有）
在CIA假设下:
因此:

精确匹配(Exact Matching)

定义

对于每个处理个体,找到特征完全相同的对照个体:

ATT估计

其中是与处理个体精确匹配的对照个体集合。

维度诅咒

问题: 如果有个连续变量,找到精确匹配几乎不可能!

例子:

年龄: 25岁 vs 25.5岁?
收入: $30,000 vs $30,100?
教育: 12年 vs 12.5年?

维度诅咒: 随着,精确匹配个体数

数值说明: 假设每个变量被分为10个区间,

: 个单元格 — 还行
: 个单元格 — 很多单元格为空
: 个单元格 — 几乎所有单元格为空

粗化精确匹配(Coarsened Exact Matching, CEM)

思想

Iacus, King & Porro (2012)

将连续变量粗化(coarsen)为类别,然后进行精确匹配:

步骤1: 将每个连续变量划分为若干区间

年龄: [18-25), [25-35), [35-45), [45+)
收入: [0-20k), [20k-50k), [50k-100k), [100k+)

步骤2: 在粗化后的类别上进行精确匹配

步骤3: 在匹配后的样本上估计因果效应

优势

减少了维度诅咒
研究者可以控制匹配精度（区间越细,匹配越精确,但匹配率越低）
不依赖参数模型

局限

粗化方案的选择有一定主观性
如果协变量太多,仍然会面临匹配率过低的问题

距离匹配(Distance-based Matching)

马氏距离(Mahalanobis Distance)

不要求精确匹配,而是根据距离找最接近的对照个体。

马氏距离定义:

其中是协变量的样本协方差矩阵。

优点: 考虑了变量之间的相关性和尺度差异

缺点: 在高维情况下仍可能表现不佳

欧氏距离(Euclidean Distance)

问题: 对变量的尺度敏感（需要先标准化）

最近邻匹配(Nearest Neighbor Matching)

算法

1:1 最近邻匹配:

对于每个处理个体,找到距离最近的对照个体:

1:k 匹配:

找到个最近的对照个体,用它们的平均结果作为反事实估计。

有放回 vs 无放回

有放回匹配(With Replacement):

同一个对照个体可以被多次匹配
优点: 匹配质量更高
缺点: 有效样本量减少

无放回匹配(Without Replacement):

每个对照个体最多被匹配一次
优点: 每个观测独立
缺点: 后匹配的处理个体可能匹配质量差

ATT估计

匹配方法的比较

方法	匹配精度	适用维度	匹配率	参数假设
精确匹配	最高	低维/离散	低	无
CEM	高	中维	中	无
马氏距离	中	中维	高	正态分布
最近邻	取决于数据	中维	高	无
倾向得分匹配	取决于模型	高维	高	倾向得分模型

核心困境: 匹配方法在低维情况下效果好,但真实数据往往是高维的。

这正是倾向得分方法的突破口 — 将高维匹配问题降至一维!

本节小结

核心要点

1. 匹配的本质: 为每个处理个体找到可比的对照个体,用对照个体的结果估计反事实

2. 维度诅咒: 精确匹配在高维情况下几乎不可行

3. 距离匹配: 通过定义距离度量,放松精确匹配的要求

4. 最近邻匹配: 最常用的距离匹配方法

5. 核心局限: 所有匹配方法都依赖CIA假设(无未观测混淆)

下一步

匹配方法的维度诅咒问题促使 Rosenbaum & Rubin (1983) 提出了倾向得分定理——这是下一节的核心内容。

上一节: 7.1 本章介绍 | 下一节: 7.3 倾向得分估计

7.2 匹配方法基础 ​

观察性数据的根本问题 ​

场景: 评估就业培训项目的效应 ​

匹配的核心直觉 ​

匹配的基本思想 ​

精确匹配(Exact Matching) ​

定义 ​

ATT估计 ​

维度诅咒 ​

粗化精确匹配(Coarsened Exact Matching, CEM) ​

思想 ​

优势 ​

局限 ​

距离匹配(Distance-based Matching) ​

马氏距离(Mahalanobis Distance) ​

欧氏距离(Euclidean Distance) ​

最近邻匹配(Nearest Neighbor Matching) ​

算法 ​

有放回 vs 无放回 ​

ATT估计 ​

匹配方法的比较 ​

本节小结 ​

核心要点 ​

下一步 ​

7.2 匹配方法基础

观察性数据的根本问题

场景: 评估就业培训项目的效应

匹配的核心直觉

匹配的基本思想

精确匹配(Exact Matching)

定义

ATT估计

维度诅咒

粗化精确匹配(Coarsened Exact Matching, CEM)

思想

优势

局限

距离匹配(Distance-based Matching)

马氏距离(Mahalanobis Distance)

欧氏距离(Euclidean Distance)

最近邻匹配(Nearest Neighbor Matching)

算法

有放回 vs 无放回

ATT估计

匹配方法的比较

本节小结

核心要点

下一步