Skip to content

12.3 统计推断与稳健性

推断方法:当只有N=1个处理单位时,如何判断效应是否"真实"?

难度方法


本节目标

  • 掌握RMSPE比率推断方法
  • 理解安慰剂/排列检验的逻辑
  • 理解Fisher精确检验在SCM中的应用
  • 全面对比SCM与DID的优劣
  • 了解研究者自由度问题及其应对

推断方法:RMSPE 比率与安慰剂检验

核心挑战:没有大样本理论

与标准回归不同,合成控制法没有大样本渐近分布可供推断——因为只有个处理单位

传统渐近理论()不适用。因此,SCM采用基于 **RMSPE(均方根预测误差)**的排列推断方法。

RMSPE比率的逻辑

政策前 RMSPE 衡量合成对照的拟合质量——即"合成单位在政策前有多像真实单位"。政策后 RMSPE 衡量效应的幅度——即"政策实施后两者的偏离程度"。

单独看政策后 RMSPE 可能会误导,因为政策前拟合差的单位本身就会产生大的政策后偏差。因此,Abadie, Diamond & Hainmueller (2010) 提出使用两者的比率作为检验统计量:

比率越大,政策效应越"异常": 如果政策前拟合很好(分母小),但政策后偏差很大(分子大),说明效应不太可能是随机波动。


安慰剂检验的完整流程

排列推断

核心思想: "如果政策无效,那么处理单位应该和对照单位没有区别"

完整步骤:

  1. 对供体池中的每一个未处理单位,依次将其视为"假处理单位",用剩余单位为其构建合成对照
  2. 对每个安慰剂单位计算政策前/后 RMSPE 比率
  3. 将真实处理单位的比率与所有安慰剂比率进行排序
  4. p 值 = 真实处理单位的排名 / 总单位数

Fisher精确检验

原假设:

检验统计量: MSPE比率

步骤:

  1. 计算真实处理单位的

  2. 对每个对照单位,假装它是"处理单位":

  3. 计算p值:

解释: 如果排名非常靠前,说明真实处理单位的"异常"不太可能是随机的。

Prop 99 的实际结果

在38个州的安慰剂检验中,加州的 RMSPE 比率排名第1(最极端),对应的 p 值 = 1/38 ≈ 0.026,在5%水平下显著。

这本质上是 Fisher 精确检验的逻辑——通过穷举所有可能的"处理分配"来构建参考分布,无需依赖渐近正态性假设。

参见 Abadie, Diamond & Hainmueller (2010); Cunningham (2021), Chapter 10


敏感性分析

1. 排除特定对照单位(Leave-One-Out)

"如果去掉加权最大的州,结论改变吗?"

python
def sensitivity_leave_one_out(Y1, Y0, X1, X0, T0):
    """逐一排除对照单位"""
    J = Y0.shape[1]
    effects_loo = []

    for j in range(J):
        Y0_j = np.delete(Y0, j, axis=1)
        X0_j = np.delete(X0, j, axis=1)

        results = synthetic_control(Y1, Y0_j, X1, X0_j, T0, optimize_v=False)
        effects_loo.append(results['ATT'])

    return effects_loo

2. 改变政策前窗口

python
def sensitivity_pre_periods(Y1, Y0, X1, X0, T0_range):
    """改变政策前期长度"""
    atts = []
    for T0 in T0_range:
        results = synthetic_control(Y1, Y0, X1, X0, T0, optimize_v=True)
        atts.append(results['ATT'])
    return atts

3. 改变协变量

"结果对特征选择敏感吗?"

最佳实践: 报告多种常用协变量组合下的结果,而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致,则因果推断更加可信。


SCM vs DID:全面对比

相似之处

1. 都基于平行趋势假设

  • DID: 处理组和对照组平行
  • SCM: 处理单位和合成对照平行

2. 都利用政策前信息

  • DID: 依赖时间趋势
  • SCM: 拟合政策前轨迹

3. 都可以做安慰剂检验

核心差异

维度DIDSCM
处理单位数多个1个
对照组平均对照加权合成
权重等权数据驱动优化
时间维度2期即可需要较长政策前期
协变量回归控制匹配协变量
平行趋势全局假设局部匹配
外推更强更保守

何时用SCM?

优先SCM:

  1. 只有1个处理单位(如国家、大城市)
  2. 长时间序列可用(至少10期政策前)
  3. 多个候选对照单位
  4. 协变量差异大

优先DID:

  1. 多个处理单位
  2. 时间序列短
  3. 对照组自然可比

数学联系

DID是SCM的特例!

2x2 DID:

等价于SCM的等权重:

SCM的优势: 数据驱动选择最优权重,而非武断等权。


合成控制法的优势与局限

核心优势

1. 无外推问题: 凸组合约束(, )确保合成对照始终在供体单位的凸包内,不会产生回归中常见的极端外推。回归模型可以隐式地将负权重赋予某些对照单位,等价于在样本范围之外构造反事实。

2. 权重完全透明: 每个供体单位的贡献一目了然——如"犹他州贡献27.6%,内华达州贡献23.4%"。传统回归的权重隐含在回归系数中,研究者无法直观判断哪些单位驱动了结果。

3. 设计与分析分离: 权重仅依赖政策前数据,研究者在看到政策后结果之前就已"锁定"了合成对照的构建方式,降低了事后修改模型以获得理想结果的可能性。

透明性是双刃剑

正因为权重可见,审稿人和读者可以对每一个权重提出质疑——为什么某州权重为零?为什么不包括某个特定州?这种审视在传统回归中不会发生。

关键局限——研究者自由度

协变量的选择对最终权重有实质影响,但合成控制法没有提供一套客观的协变量选择准则。Ferman, Pinto & Possebom (2020) 的模拟研究表明,即使将名义显著性水平设为5%,由于研究者在协变量选择上的自由度,实际假阳性率可能高达约14%

最佳实践: 报告多种常用协变量组合下的结果,而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致,则因果推断更加可信。

参考 Cunningham (2021), Chapter 10; Ferman, Pinto & Possebom (2020)


本节小结

核心要点

  1. RMSPE比率是SCM的标准推断统计量,综合考虑了政策前拟合质量和政策后偏离程度
  2. 安慰剂检验通过将每个对照单位视为"假处理单位"来构建参考分布
  3. Fisher精确检验逻辑:穷举所有可能的处理分配,无需渐近理论
  4. SCM vs DID:SCM适用于N=1场景,DID适用于多处理单位;DID是SCM的等权特例
  5. 研究者自由度:协变量选择影响权重,需报告多种设定下的结果

关键公式

p值(Fisher检验):


<< 上一节:12.2 合成控制法原理 | 下一节:12.4 经典案例与Python实现 >>

基于 MIT 许可证发布。内容版权归作者所有。