12.3 统计推断与稳健性

推断方法：当只有N=1个处理单位时，如何判断效应是否"真实"？

本节目标

掌握RMSPE比率推断方法
理解安慰剂/排列检验的逻辑
理解Fisher精确检验在SCM中的应用
全面对比SCM与DID的优劣
了解研究者自由度问题及其应对

推断方法：RMSPE 比率与安慰剂检验

核心挑战：没有大样本理论

与标准回归不同，合成控制法没有大样本渐近分布可供推断——因为只有个处理单位！

传统渐近理论（）不适用。因此，SCM采用基于 **RMSPE（均方根预测误差）**的排列推断方法。

RMSPE比率的逻辑

政策前 RMSPE 衡量合成对照的拟合质量——即"合成单位在政策前有多像真实单位"。政策后 RMSPE 衡量效应的幅度——即"政策实施后两者的偏离程度"。

单独看政策后 RMSPE 可能会误导，因为政策前拟合差的单位本身就会产生大的政策后偏差。因此，Abadie, Diamond & Hainmueller (2010) 提出使用两者的比率作为检验统计量：

比率越大，政策效应越"异常": 如果政策前拟合很好（分母小），但政策后偏差很大（分子大），说明效应不太可能是随机波动。

安慰剂检验的完整流程

排列推断

核心思想: "如果政策无效，那么处理单位应该和对照单位没有区别"

完整步骤:

对供体池中的每一个未处理单位，依次将其视为"假处理单位"，用剩余单位为其构建合成对照
对每个安慰剂单位计算政策前/后 RMSPE 比率
将真实处理单位的比率与所有安慰剂比率进行排序
p 值 = 真实处理单位的排名 / 总单位数

Fisher精确检验

原假设:

检验统计量: MSPE比率

步骤:

计算真实处理单位的
对每个对照单位，假装它是"处理单位":
计算p值:

解释: 如果排名非常靠前，说明真实处理单位的"异常"不太可能是随机的。

Prop 99 的实际结果

在38个州的安慰剂检验中，加州的 RMSPE 比率排名第1（最极端），对应的 p 值 = 1/38 ≈ 0.026，在5%水平下显著。

这本质上是 Fisher 精确检验的逻辑——通过穷举所有可能的"处理分配"来构建参考分布，无需依赖渐近正态性假设。

参见 Abadie, Diamond & Hainmueller (2010); Cunningham (2021), Chapter 10

敏感性分析

1. 排除特定对照单位（Leave-One-Out）

"如果去掉加权最大的州，结论改变吗？"

python

def sensitivity_leave_one_out(Y1, Y0, X1, X0, T0):
    """逐一排除对照单位"""
    J = Y0.shape[1]
    effects_loo = []

    for j in range(J):
        Y0_j = np.delete(Y0, j, axis=1)
        X0_j = np.delete(X0, j, axis=1)

        results = synthetic_control(Y1, Y0_j, X1, X0_j, T0, optimize_v=False)
        effects_loo.append(results['ATT'])

    return effects_loo

2. 改变政策前窗口

python

def sensitivity_pre_periods(Y1, Y0, X1, X0, T0_range):
    """改变政策前期长度"""
    atts = []
    for T0 in T0_range:
        results = synthetic_control(Y1, Y0, X1, X0, T0, optimize_v=True)
        atts.append(results['ATT'])
    return atts

3. 改变协变量

"结果对特征选择敏感吗？"

最佳实践: 报告多种常用协变量组合下的结果，而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致，则因果推断更加可信。

SCM vs DID：全面对比

相似之处

1. 都基于平行趋势假设

DID: 处理组和对照组平行
SCM: 处理单位和合成对照平行

2. 都利用政策前信息

DID: 依赖时间趋势
SCM: 拟合政策前轨迹

3. 都可以做安慰剂检验

核心差异

维度	DID	SCM
处理单位数	多个	1个
对照组	平均对照	加权合成
权重	等权	数据驱动优化
时间维度	2期即可	需要较长政策前期
协变量	回归控制	匹配协变量
平行趋势	全局假设	局部匹配
外推	更强	更保守

何时用SCM？

优先SCM:

只有1个处理单位（如国家、大城市）
长时间序列可用（至少10期政策前）
多个候选对照单位
协变量差异大

优先DID:

多个处理单位
时间序列短
对照组自然可比

数学联系

DID是SCM的特例！

2x2 DID:

等价于SCM的等权重:

SCM的优势: 数据驱动选择最优权重，而非武断等权。

合成控制法的优势与局限

核心优势

1. 无外推问题: 凸组合约束（, ）确保合成对照始终在供体单位的凸包内，不会产生回归中常见的极端外推。回归模型可以隐式地将负权重赋予某些对照单位，等价于在样本范围之外构造反事实。

2. 权重完全透明: 每个供体单位的贡献一目了然——如"犹他州贡献27.6%，内华达州贡献23.4%"。传统回归的权重隐含在回归系数中，研究者无法直观判断哪些单位驱动了结果。

3. 设计与分析分离: 权重仅依赖政策前数据，研究者在看到政策后结果之前就已"锁定"了合成对照的构建方式，降低了事后修改模型以获得理想结果的可能性。

透明性是双刃剑

正因为权重可见，审稿人和读者可以对每一个权重提出质疑——为什么某州权重为零？为什么不包括某个特定州？这种审视在传统回归中不会发生。

关键局限——研究者自由度

协变量的选择对最终权重有实质影响，但合成控制法没有提供一套客观的协变量选择准则。Ferman, Pinto & Possebom (2020) 的模拟研究表明，即使将名义显著性水平设为5%，由于研究者在协变量选择上的自由度，实际假阳性率可能高达约14%。

最佳实践: 报告多种常用协变量组合下的结果，而非仅展示"最优"的单一模型。如果结论在不同设定下保持一致，则因果推断更加可信。

参考 Cunningham (2021), Chapter 10; Ferman, Pinto & Possebom (2020)

本节小结

核心要点

RMSPE比率是SCM的标准推断统计量，综合考虑了政策前拟合质量和政策后偏离程度
安慰剂检验通过将每个对照单位视为"假处理单位"来构建参考分布
Fisher精确检验逻辑：穷举所有可能的处理分配，无需渐近理论
SCM vs DID：SCM适用于N=1场景，DID适用于多处理单位；DID是SCM的等权特例
研究者自由度：协变量选择影响权重，需报告多种设定下的结果

关键公式

p值(Fisher检验):

<< 上一节：12.2 合成控制法原理 | 下一节：12.4 经典案例与Python实现 >>

12.3 统计推断与稳健性 ​

本节目标 ​

推断方法：RMSPE 比率与安慰剂检验 ​

核心挑战：没有大样本理论 ​

RMSPE比率的逻辑 ​

安慰剂检验的完整流程 ​

排列推断 ​

Fisher精确检验 ​

Prop 99 的实际结果 ​

敏感性分析 ​

1. 排除特定对照单位（Leave-One-Out） ​

2. 改变政策前窗口 ​

3. 改变协变量 ​

SCM vs DID：全面对比 ​

相似之处 ​

核心差异 ​

何时用SCM？ ​

数学联系 ​

合成控制法的优势与局限 ​

核心优势 ​

透明性是双刃剑 ​

关键局限——研究者自由度 ​

本节小结 ​

核心要点 ​

关键公式 ​