12.3 统计推断与稳健性
推断方法:当只有N=1个处理单位时,如何判断效应是否"真实"?
本节目标
- 掌握RMSPE比率推断方法
- 理解安慰剂/排列检验的逻辑
- 理解Fisher精确检验在SCM中的应用
- 全面对比SCM与DID的优劣
- 了解研究者自由度问题及其应对
推断方法:RMSPE 比率与安慰剂检验
核心挑战:没有大样本理论
与标准回归不同,合成控制法没有大样本渐近分布可供推断——因为只有个处理单位!
传统渐近理论()不适用。因此,SCM采用基于 **RMSPE(均方根预测误差)**的排列推断方法。
RMSPE比率的逻辑
政策前 RMSPE 衡量合成对照的拟合质量——即"合成单位在政策前有多像真实单位"。政策后 RMSPE 衡量效应的幅度——即"政策实施后两者的偏离程度"。
单独看政策后 RMSPE 可能会误导,因为政策前拟合差的单位本身就会产生大的政策后偏差。因此,Abadie, Diamond & Hainmueller (2010) 提出使用两者的比率作为检验统计量:
比率越大,政策效应越"异常": 如果政策前拟合很好(分母小),但政策后偏差很大(分子大),说明效应不太可能是随机波动。
安慰剂检验的完整流程
排列推断
核心思想: "如果政策无效,那么处理单位应该和对照单位没有区别"
完整步骤:
- 对供体池中的每一个未处理单位,依次将其视为"假处理单位",用剩余单位为其构建合成对照
- 对每个安慰剂单位计算政策前/后 RMSPE 比率
- 将真实处理单位的比率与所有安慰剂比率进行排序
- p 值 = 真实处理单位的排名 / 总单位数
Fisher精确检验
原假设:
检验统计量: MSPE比率
步骤:
计算真实处理单位的
对每个对照单位,假装它是"处理单位":
计算p值:
解释: 如果排名非常靠前,说明真实处理单位的"异常"不太可能是随机的。
Prop 99 的实际结果
在38个州的安慰剂检验中,加州的 RMSPE 比率排名第1(最极端),对应的 p 值 = 1/38 ≈ 0.026,在5%水平下显著。
这本质上是 Fisher 精确检验的逻辑——通过穷举所有可能的"处理分配"来构建参考分布,无需依赖渐近正态性假设。
参见 Abadie, Diamond & Hainmueller (2010); Cunningham (2021), Chapter 10
敏感性分析
1. 排除特定对照单位(Leave-One-Out)
"如果去掉加权最大的州,结论改变吗?"
def sensitivity_leave_one_out(Y1, Y0, X1, X0, T0):
"""逐一排除对照单位"""
J = Y0.shape[1]
effects_loo = []
for j in range(J):
Y0_j = np.delete(Y0, j, axis=1)
X0_j = np.delete(X0, j, axis=1)
results = synthetic_control(Y1, Y0_j, X1, X0_j, T0, optimize_v=False)
effects_loo.append(results['ATT'])
return effects_loo2. 改变政策前窗口
def sensitivity_pre_periods(Y1, Y0, X1, X0, T0_range):
"""改变政策前期长度"""
atts = []
for T0 in T0_range:
results = synthetic_control(Y1, Y0, X1, X0, T0, optimize_v=True)
atts.append(results['ATT'])
return atts3. 改变协变量
"结果对特征选择敏感吗?"
最佳实践: 报告多种常用协变量组合下的结果,而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致,则因果推断更加可信。
SCM vs DID:全面对比
相似之处
1. 都基于平行趋势假设
- DID: 处理组和对照组平行
- SCM: 处理单位和合成对照平行
2. 都利用政策前信息
- DID: 依赖时间趋势
- SCM: 拟合政策前轨迹
3. 都可以做安慰剂检验
核心差异
| 维度 | DID | SCM |
|---|---|---|
| 处理单位数 | 多个 | 1个 |
| 对照组 | 平均对照 | 加权合成 |
| 权重 | 等权 | 数据驱动优化 |
| 时间维度 | 2期即可 | 需要较长政策前期 |
| 协变量 | 回归控制 | 匹配协变量 |
| 平行趋势 | 全局假设 | 局部匹配 |
| 外推 | 更强 | 更保守 |
何时用SCM?
优先SCM:
- 只有1个处理单位(如国家、大城市)
- 长时间序列可用(至少10期政策前)
- 多个候选对照单位
- 协变量差异大
优先DID:
- 多个处理单位
- 时间序列短
- 对照组自然可比
数学联系
DID是SCM的特例!
2x2 DID:
等价于SCM的等权重:
SCM的优势: 数据驱动选择最优权重,而非武断等权。
合成控制法的优势与局限
核心优势
1. 无外推问题: 凸组合约束(, )确保合成对照始终在供体单位的凸包内,不会产生回归中常见的极端外推。回归模型可以隐式地将负权重赋予某些对照单位,等价于在样本范围之外构造反事实。
2. 权重完全透明: 每个供体单位的贡献一目了然——如"犹他州贡献27.6%,内华达州贡献23.4%"。传统回归的权重隐含在回归系数中,研究者无法直观判断哪些单位驱动了结果。
3. 设计与分析分离: 权重仅依赖政策前数据,研究者在看到政策后结果之前就已"锁定"了合成对照的构建方式,降低了事后修改模型以获得理想结果的可能性。
透明性是双刃剑
正因为权重可见,审稿人和读者可以对每一个权重提出质疑——为什么某州权重为零?为什么不包括某个特定州?这种审视在传统回归中不会发生。
关键局限——研究者自由度
协变量的选择对最终权重有实质影响,但合成控制法没有提供一套客观的协变量选择准则。Ferman, Pinto & Possebom (2020) 的模拟研究表明,即使将名义显著性水平设为5%,由于研究者在协变量选择上的自由度,实际假阳性率可能高达约14%。
最佳实践: 报告多种常用协变量组合下的结果,而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致,则因果推断更加可信。
参考 Cunningham (2021), Chapter 10; Ferman, Pinto & Possebom (2020)
本节小结
核心要点
- RMSPE比率是SCM的标准推断统计量,综合考虑了政策前拟合质量和政策后偏离程度
- 安慰剂检验通过将每个对照单位视为"假处理单位"来构建参考分布
- Fisher精确检验逻辑:穷举所有可能的处理分配,无需渐近理论
- SCM vs DID:SCM适用于N=1场景,DID适用于多处理单位;DID是SCM的等权特例
- 研究者自由度:协变量选择影响权重,需报告多种设定下的结果
关键公式
p值(Fisher检验):