2.4 碰撞偏差与控制变量选择
不是所有变量都应该控制——控制错误的变量可能比不控制更糟
碰撞偏差(Collider Bias):因果推断中的隐藏陷阱
对撞变量(collider)是因果推断中最容易被忽视、也最容易导致错误结论的结构。当两个变量同时影响第三个变量时,就形成了对撞结构: ,其中 是对撞变量。
核心性质
对撞变量天然地阻断后门路径——这与混淆变量恰好相反。但如果我们控制(条件化于)对撞变量,反而会打开这条路径,在 和 之间制造虚假的统计关联。
简而言之:
- 混淆变量应该控制
- 对撞变量不应该控制
- 搞反了方向,推断就会出错
示例1: 性别歧视与职业选择
考虑以下因果结构:
性别(Gender) → 职业(Occupation) ← 能力(Ability) → 工资(Wages)
| ↑
└────────────────────────────────────────────────┘这里"职业"是一个对撞变量,同时受性别和能力影响。
分析
假设真实的性别歧视效应是 -1(女性工资低于男性)。
错误做法: 在回归中仅控制职业而不控制能力
由于打开了对撞路径,性别的系数可能变为 +0.6——不仅大小错误,连方向都反了。
为什么会这样?
当我们控制职业(条件化于对撞变量)时:
- 对撞路径 性别→职业←能力 被打开
- 在同一职业内,性别和能力产生了虚假的负相关
- 由于能力正向影响工资,这个虚假关联扭曲了性别对工资的估计
正确做法: 同时控制职业和能力
但能力通常不可观测。这正是**"坏控制变量"(bad controls)**问题的典型案例: 控制处理后变量(尤其是对撞变量)可能引入比不控制更严重的偏差。
示例2: 电影明星的美貌与才华
设定
假设美貌和才华在一般人群中独立分布,互不相关。
成为电影明星需要两者的综合得分达到很高水平(比如前15%):
美貌 → 明星身份 ← 才华对撞偏差的表现
在电影明星这个子样本中,会出现美貌和才华的负相关:
- 那些才华横溢的明星往往外貌平平
- 而外貌出众的明星才华相对一般
为什么?
这种负相关并非真实的因果关系,而是纯粹的对撞偏差——我们通过选择"明星"样本,等价于条件化了对撞变量"明星身份",从而在两个原本独立的变量之间人为制造了关联。
数学直觉: 要成为明星,美貌+才华的总分需要超过某个阈值。如果一个明星特别漂亮(美貌分很高),那么他/她即使才华分不那么高也能达到阈值——因此在明星群体中,高美貌与低才华相关。
示例3: 警察使用武力的研究 (Fryer 2019)
研究背景
研究警察对不同种族使用武力是否存在歧视时,一个微妙但关键的问题是: 行政数据只记录了警察实际拦截的人。
对撞结构
种族 → 是否被拦截 ← 使用武力倾向如果警察基于怀疑程度决定是否拦截,而怀疑程度又与使用武力倾向相关,那么"是否被拦截"就构成了一个对撞变量。
问题
研究者使用这些数据时,被迫条件化于"被拦截"——因为未被拦截的人根本不在数据中。
Knox, Lowe & Mummolo (2020) 的修正
Knox, Lowe & Mummolo (2020) 指出,这种对撞偏差可能导致严重低估歧视程度: 他们的分析表明,考虑到这一偏差后,歧视效应的下界估计可达传统方法的5倍。
教训
样本选择本身就可能构成对撞偏差。当你的数据是通过某种筛选过程产生的(如"只观察被录用的人""只观察被拦截的人""只观察发表的论文"),你就在条件化于一个对撞变量。
好控制与坏控制
好控制变量(Good Controls)
满足后门准则的变量: 位于处理变量之前,同时影响处理和结果
好控制:
Z (好控制)
/ \
↓ ↓
D → Y- 是混淆变量
- 控制阻断后门路径 → 消除偏差
- 例子: 研究教育对收入的效应时,控制家庭背景
坏控制变量(Bad Controls)
1. 对撞变量: 同时受处理和结果(或其原因)影响
坏控制(对撞):
D → Z ← Y- 控制打开了虚假路径
- 例子: 研究培训对收入的效应时,控制"工作职位"(受培训和能力双重影响)
2. 中介变量(取决于研究问题):
需要谨慎的控制(中介):
D → M → Y- 如果关心总效应: 不应控制
- 如果关心直接效应: 可以控制(但需要额外假设)
- 例子: 研究教育对收入的总效应时,不应控制"技能水平"(中介)
3. 处理后变量: 处理变量的后代
坏控制(处理后变量):
D → W → Y
D → Y- 控制可能阻断因果路径的一部分
- 例子: 研究药物对健康的效应时,控制"血压变化"(药物的直接后果)
实践中的变量选择指南
决策流程
对于每个候选控制变量,问自己:
问题 1: 是否是处理变量的后代?
- 如果是 → 不要控制(可能是坏控制)
- 如果不是 → 继续
问题 2: 是否同时影响和?
- 如果是 → 应该控制(混淆变量)
- 如果不是 → 继续
问题 3: 是否同时被和(或的原因)影响?
- 如果是 → 不要控制(对撞变量)
- 如果不是 → 控制通常无害,但也可能无益
实用建议
- 先画 DAG: 在选择控制变量之前,先画出你认为正确的因果图
- 用后门准则检验: 你选择的控制变量集是否满足后门准则?
- 考虑时间顺序: 只控制在处理之前确定的变量(pre-treatment variables)
- 宁缺毋滥: 不确定的变量,不控制往往比错误控制更安全
- 敏感性分析: 比较控制不同变量集合后的结果,如果结果差异很大,说明控制变量选择很关键
核心原则
没有理论指导,就无法进行有效的因果推断。识别处理效应不可避免地需要因果假设——理论告诉我们:
- 哪些变量是混淆变量(应该控制)
- 哪些是对撞变量(不应该控制)
- 哪些是中介变量(取决于研究问题)
纯粹的数据驱动方法无法替代对因果结构的深思熟虑。
参考 Cunningham (2021), Causal Inference: The Mixtape, Chapter 3
️ 常见陷阱
陷阱1: 控制对撞变量
经典错误: 无意中控制了对撞变量
例子: Berkson's Paradox
病因A → 住院 ← 病因B在住院患者中,A和B负相关(虽然本无关)!
陷阱2: "控制越多越好"的错误信念
许多研究者认为: 回归中加入更多控制变量总是更好的
事实: 如果加入的变量是对撞变量或处理后变量,会增加偏差而非减少偏差
陷阱3: 样本选择偏差
问题: 你的样本是如何产生的?样本选择过程本身可能构成对撞偏差
例子:
- 只研究"存活的企业"(存活是对撞变量)
- 只研究"发表的论文"(发表是对撞变量 → 发表偏差)
- 只研究"就诊的患者"(就诊是对撞变量)
本节小结
核心要点
1. 对撞偏差的机制:
- 对撞变量天然阻断路径
- 控制对撞变量反而打开路径,制造虚假关联
2. 变量选择规则:
| 变量类型 | 是否控制 | 原因 |
|---|---|---|
| 混淆变量 | 是 | 阻断后门路径 |
| 对撞变量 | 否 | 控制后打开虚假路径 |
| 中介变量 | 视研究问题 | 总效应不控制,直接效应控制 |
| 处理后变量 | 通常不 | 可能是坏控制 |
| 处理前变量 | 通常是 | 安全的控制选择 |
3. 核心原则: 变量选择必须基于因果理论(DAG),而非纯粹的统计标准
上一节: 2.3 d-分离与后门准则 | 下一节: 2.5 do-算子与前门准则