2.4 碰撞偏差与控制变量选择

不是所有变量都应该控制——控制错误的变量可能比不控制更糟

碰撞偏差(Collider Bias):因果推断中的隐藏陷阱

对撞变量(collider)是因果推断中最容易被忽视、也最容易导致错误结论的结构。当两个变量同时影响第三个变量时,就形成了对撞结构: ,其中是对撞变量。

核心性质

对撞变量天然地阻断后门路径——这与混淆变量恰好相反。但如果我们控制(条件化于)对撞变量,反而会打开这条路径,在和之间制造虚假的统计关联。

简而言之:

混淆变量应该控制
对撞变量不应该控制
搞反了方向,推断就会出错

示例1: 性别歧视与职业选择

考虑以下因果结构:

text

性别(Gender) → 职业(Occupation) ← 能力(Ability) → 工资(Wages)
       |                                                ↑
       └────────────────────────────────────────────────┘

这里"职业"是一个对撞变量,同时受性别和能力影响。

分析

假设真实的性别歧视效应是 -1（女性工资低于男性）。

错误做法: 在回归中仅控制职业而不控制能力

由于打开了对撞路径,性别的系数可能变为 +0.6——不仅大小错误,连方向都反了。

为什么会这样?

当我们控制职业(条件化于对撞变量)时:

对撞路径性别→职业←能力被打开
在同一职业内,性别和能力产生了虚假的负相关
由于能力正向影响工资,这个虚假关联扭曲了性别对工资的估计

正确做法: 同时控制职业和能力

但能力通常不可观测。这正是**"坏控制变量"(bad controls)**问题的典型案例: 控制处理后变量(尤其是对撞变量)可能引入比不控制更严重的偏差。

示例2: 电影明星的美貌与才华

设定

假设美貌和才华在一般人群中独立分布,互不相关。

成为电影明星需要两者的综合得分达到很高水平(比如前15%):

    美貌 → 明星身份 ← 才华

对撞偏差的表现

在电影明星这个子样本中,会出现美貌和才华的负相关:

那些才华横溢的明星往往外貌平平
而外貌出众的明星才华相对一般

为什么?

这种负相关并非真实的因果关系,而是纯粹的对撞偏差——我们通过选择"明星"样本,等价于条件化了对撞变量"明星身份",从而在两个原本独立的变量之间人为制造了关联。

数学直觉: 要成为明星,美貌+才华的总分需要超过某个阈值。如果一个明星特别漂亮(美貌分很高),那么他/她即使才华分不那么高也能达到阈值——因此在明星群体中,高美貌与低才华相关。

示例3: 警察使用武力的研究 (Fryer 2019)

研究背景

研究警察对不同种族使用武力是否存在歧视时,一个微妙但关键的问题是: 行政数据只记录了警察实际拦截的人。

对撞结构

    种族 → 是否被拦截 ← 使用武力倾向

如果警察基于怀疑程度决定是否拦截,而怀疑程度又与使用武力倾向相关,那么"是否被拦截"就构成了一个对撞变量。

问题

研究者使用这些数据时,被迫条件化于"被拦截"——因为未被拦截的人根本不在数据中。

Knox, Lowe & Mummolo (2020) 的修正

Knox, Lowe & Mummolo (2020) 指出,这种对撞偏差可能导致严重低估歧视程度: 他们的分析表明,考虑到这一偏差后,歧视效应的下界估计可达传统方法的5倍。

教训

样本选择本身就可能构成对撞偏差。当你的数据是通过某种筛选过程产生的(如"只观察被录用的人""只观察被拦截的人""只观察发表的论文"),你就在条件化于一个对撞变量。

好控制与坏控制

好控制变量(Good Controls)

满足后门准则的变量: 位于处理变量之前,同时影响处理和结果

好控制:
      Z (好控制)
     / \
    ↓   ↓
    D → Y

是混淆变量
控制阻断后门路径 → 消除偏差
例子: 研究教育对收入的效应时,控制家庭背景

坏控制变量(Bad Controls)

1. 对撞变量: 同时受处理和结果(或其原因)影响

坏控制(对撞):
    D → Z ← Y

控制打开了虚假路径
例子: 研究培训对收入的效应时,控制"工作职位"(受培训和能力双重影响)

2. 中介变量(取决于研究问题):

需要谨慎的控制(中介):
    D → M → Y

如果关心总效应: 不应控制
如果关心直接效应: 可以控制(但需要额外假设)
例子: 研究教育对收入的总效应时,不应控制"技能水平"(中介)

3. 处理后变量: 处理变量的后代

坏控制(处理后变量):
    D → W → Y
    D → Y

控制可能阻断因果路径的一部分
例子: 研究药物对健康的效应时,控制"血压变化"(药物的直接后果)

实践中的变量选择指南

决策流程

对于每个候选控制变量,问自己:

问题 1: 是否是处理变量的后代?

如果是 → 不要控制(可能是坏控制)
如果不是 → 继续

问题 2: 是否同时影响和?

如果是 → 应该控制(混淆变量)
如果不是 → 继续

问题 3: 是否同时被和(或的原因)影响?

如果是 → 不要控制(对撞变量)
如果不是 → 控制通常无害,但也可能无益

实用建议

先画 DAG: 在选择控制变量之前,先画出你认为正确的因果图
用后门准则检验: 你选择的控制变量集是否满足后门准则?
考虑时间顺序: 只控制在处理之前确定的变量(pre-treatment variables)
宁缺毋滥: 不确定的变量,不控制往往比错误控制更安全
敏感性分析: 比较控制不同变量集合后的结果,如果结果差异很大,说明控制变量选择很关键

核心原则

没有理论指导,就无法进行有效的因果推断。识别处理效应不可避免地需要因果假设——理论告诉我们:

哪些变量是混淆变量(应该控制)
哪些是对撞变量(不应该控制)
哪些是中介变量(取决于研究问题)

纯粹的数据驱动方法无法替代对因果结构的深思熟虑。

参考 Cunningham (2021), Causal Inference: The Mixtape, Chapter 3

️ 常见陷阱

陷阱1: 控制对撞变量

经典错误: 无意中控制了对撞变量

例子: Berkson's Paradox

病因A → 住院 ← 病因B

在住院患者中,A和B负相关(虽然本无关)!

陷阱2: "控制越多越好"的错误信念

许多研究者认为: 回归中加入更多控制变量总是更好的

事实: 如果加入的变量是对撞变量或处理后变量,会增加偏差而非减少偏差

陷阱3: 样本选择偏差

问题: 你的样本是如何产生的?样本选择过程本身可能构成对撞偏差

例子:

只研究"存活的企业"(存活是对撞变量)
只研究"发表的论文"(发表是对撞变量 → 发表偏差)
只研究"就诊的患者"(就诊是对撞变量)

本节小结

核心要点

1. 对撞偏差的机制:

对撞变量天然阻断路径
控制对撞变量反而打开路径,制造虚假关联

2. 变量选择规则:

变量类型	是否控制	原因
混淆变量	是	阻断后门路径
对撞变量	否	控制后打开虚假路径
中介变量	视研究问题	总效应不控制,直接效应控制
处理后变量	通常不	可能是坏控制
处理前变量	通常是	安全的控制选择

3. 核心原则: 变量选择必须基于因果理论(DAG),而非纯粹的统计标准

上一节: 2.3 d-分离与后门准则 | 下一节: 2.5 do-算子与前门准则

2.4 碰撞偏差与控制变量选择 ​

碰撞偏差(Collider Bias):因果推断中的隐藏陷阱 ​

核心性质 ​

示例1: 性别歧视与职业选择 ​

分析 ​

示例2: 电影明星的美貌与才华 ​

设定 ​

对撞偏差的表现 ​

为什么? ​

示例3: 警察使用武力的研究 (Fryer 2019) ​

研究背景 ​

对撞结构 ​

问题 ​

Knox, Lowe & Mummolo (2020) 的修正 ​

教训 ​

好控制与坏控制 ​

好控制变量(Good Controls) ​

坏控制变量(Bad Controls) ​

实践中的变量选择指南 ​

决策流程 ​

实用建议 ​

核心原则 ​

️ 常见陷阱 ​

陷阱1: 控制对撞变量 ​

陷阱2: "控制越多越好"的错误信念 ​

陷阱3: 样本选择偏差 ​

本节小结 ​

核心要点 ​