Module 14 Double ML与因果AI前沿
当机器学习遇见因果推断:从去偏估计到因果发现的前沿之旅
本章目标
完成本章后,你将能够:
- 理解Double/Debiased Machine Learning的核心思想
- 掌握交叉拟合与Neyman正交性的原理
- 使用econml和doubleml库实现DML
- 了解因果发现算法(PC, FCI, GES)的基本逻辑
- 理解Shift-Share IV等前沿工具变量方法
- 认识LLM和AI技术在因果推断中的新兴应用
- 整合Modules 1-13的全部知识,形成完整的因果推断视野
为什么需要因果AI?
从预测到因果:AI时代的核心问题
机器学习在过去二十年取得了令人瞩目的成就——从图像识别到自然语言处理,从推荐系统到自动驾驶。但在社会科学和政策评估领域,一个根本性的问题始终困扰着研究者:
预测准确 理解因果
| 维度 | ML预测 | 因果推断 |
|---|---|---|
| 目标 | 预测精度 | 无偏因果效应 |
| 关注 | ||
| 正则化 | 鼓励(防过拟合) | 谨慎(可能引入偏差) |
| 变量选择 | 越多越好 | 必须理论驱动 |
| 评估 | 预测误差(MSE, AUC) | 因果效应估计的无偏性 |
ML思维的陷阱:"加入所有变量,让模型选择"。
因果推断的警告:控制对撞变量(collider) 引入偏差!控制中介变量(mediator) 阻断因果路径!
两个世界的融合
2018年,Victor Chernozhukov等人在The Econometrics Journal发表了具有里程碑意义的论文,提出了Double/Debiased Machine Learning框架。这篇论文优雅地解决了一个长期困扰计量经济学家的问题:
如何在利用机器学习灵活性的同时,保持因果效应估计的-一致性和渐近正态性?
答案的核心在于两个关键思想:交叉拟合(Cross-Fitting)和Neyman正交性(Neyman Orthogonality)。
Double Machine Learning:核心直觉
部分线性模型
考虑一个经典的因果推断场景:
其中:
- :结果变量
- :处理变量(我们关心其因果效应)
- :高维协变量(混淆变量)
- :因果效应参数(我们要估计的目标)
- :结果对协变量的未知函数
- :处理对协变量的未知函数(倾向得分的推广)
核心问题:和都是复杂的非参数函数,传统OLS无法处理。ML可以灵活地估计它们——但ML的正则化偏差会"污染"的估计。
DML的天才解决方案
步骤1:残差化(Partialling Out)
用ML模型分别估计:
步骤2:估计因果效应
在残差上做简单回归:
步骤3:交叉拟合
将样本分为折,每折的ML预测使用其他折的数据训练,避免过拟合偏差。
关键性质:即使ML模型的估计和不完美(收敛速度慢于),仍然是-一致且渐近正态的!
因果发现:从"给定DAG"到"学习DAG"
范式转变
在前面的章节中(Module 1-13),我们的因果推断都基于一个前提:因果图(DAG)由研究者根据领域知识给定。
但如果我们不知道因果结构呢?如果我们想从数据中学习因果关系的方向呢?
这就是因果发现(Causal Discovery)的研究领域——Judea Pearl称之为因果推断的"圣杯"。
主要算法家族
1. 基于约束的方法
- PC算法(Peter-Clark):通过条件独立性检验逐步删除边
- FCI算法(Fast Causal Inference):允许隐变量存在
2. 基于得分的方法
- GES(Greedy Equivalence Search):在等价类空间中贪心搜索
3. 基于函数形式的方法
- LiNGAM:利用非高斯性识别方向
- ANM(Additive Noise Models):利用噪声的不对称性
LLM与因果推断:新兴前沿
AI时代的新可能
大语言模型(LLM)正在为因果推断打开全新的可能性:
1. 因果图构建辅助
- LLM可以基于领域文献自动建议因果假设
- 帮助研究者识别可能的混淆变量和中介变量
2. 自然语言处理中的因果推断
- 从文本数据中提取因果关系
- 使用LLM处理非结构化数据中的因果问题
3. 元分析与文献综合
- 自动提取已发表研究的因果效应估计
- 综合不同研究的证据
但需要谨慎
LLM本质上是基于相关性训练的——它学习的是,而非。因此,LLM可以辅助因果推断,但不能替代严格的因果识别策略。
"Correlation is not causation — and neither is a language model."
本章的知识定位
在全书中的位置
回顾我们的因果推断学习旅程:
| 模块 | 核心内容 | 核心方法 |
|---|---|---|
| Module 1 | 反事实与RCT | 潜在结果框架 |
| Module 9 | 面板数据与固定效应 | FE/RE估计 |
| Module 10 | 双重差分 | DID + 事件研究 |
| Module 11 | 断点回归 | RDD |
| Module 12 | 合成控制 | SCM |
| Module 13 | 异质性效应 | Causal Forest |
| Module 14 | DML与因果AI | DML + 因果发现 |
Module 14是全书的终章——我们将站在因果推断的前沿,展望机器学习与因果推断融合的未来。
本章结构
第 1 节:本章介绍(当前)
- 因果AI的动机
- DML的核心直觉
- 因果发现简介
- LLM与因果推断
第 2 节:Double Machine Learning
- 部分线性模型
- 交叉拟合程序
- Neyman正交性
- Python实现(econml + doubleml)
- 模拟验证
第 3 节:因果发现与前沿方法
- 因果发现算法(PC, FCI, GES)
- Shift-Share IV(Bartik工具变量)
- 现代Staggered DID进展
- DoWhy因果推断框架
- LLM/AI在因果推断中的应用
第 4 节:本章小结与展望
- 核心要点回顾
- 因果推断的未来
- 推荐资源
- 全书总结
️ Python工具包
核心库
| 库 | 主要功能 | 安装 |
|---|---|---|
| econml | 微软开发的因果ML库 | pip install econml |
| doubleml | DML专用框架 | pip install doubleml |
| dowhy | 微软因果推断框架 | pip install dowhy |
| causal-learn | 因果发现算法 | pip install causal-learn |
| pgmpy | 概率图模型 | pip install pgmpy |
| scikit-learn | 基础ML工具 | pip install scikit-learn |
基础设置
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Double ML
from econml.dml import LinearDML, CausalForestDML
from doubleml import DoubleMLPLR, DoubleMLData
# 因果发现
from causallearn.search.ConstraintBased.PC import pc
from causallearn.search.ScoreBased.GES import ges
# 因果推断框架
import dowhy
# ML基础
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_predict
# 可视化
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")必读文献
奠基性论文
Chernozhukov, V., et al. (2018). "Double/Debiased Machine Learning for Treatment and Structural Parameters." The Econometrics Journal, 21(1), C1-C68.
- DML的核心论文(必读!)
Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search. MIT Press.
- 因果发现算法的经典著作
Borusyak, K., Hull, P., & Jaravel, X. (2022). "Quasi-Experimental Shift-Share Research Designs." Review of Economic Studies, 89(1), 181-213.
- Shift-Share IV的现代理论
方法论进展
Goodman-Bacon, A. (2021). "Difference-in-Differences with Variation in Treatment Timing." Econometrica, 89(5), 2291-2318.
- TWFE偏误与Bacon分解
Callaway, B., & Sant'Anna, P. H. (2021). "Difference-in-Differences with Multiple Time Periods." Journal of Econometrics, 225(2), 200-230.
- 现代Staggered DID
推荐教材
- Chernozhukov, V., et al. (2024). Applied Causal Inference Powered by ML and AI. (在线教材)
- Cunningham, S. (2021). Causal Inference: The Mixtape.
- Pearl, J. (2009). Causality: Models, Reasoning, and Inference. 2nd Edition.
准备好了吗?
这是我们因果推断旅程的最后一站。在这里,传统计量经济学的严谨性遇上了机器学习的灵活性,因果推断的深度遇上了AI的广度。
我们将看到:
- 如何用Random Forest估计nuisance parameters,同时保持因果效应估计的-一致性
- 如何从数据中自动发现因果结构
- 如何将最新的AI技术应用于因果推断
- 如何整合全书的方法论武器库来解决真实世界的问题
"The credibility revolution in empirical economics has fundamentally changed how we think about evidence." — Joshua Angrist & Jorn-Steffen Pischke
让我们开始学习 第2节:Double Machine Learning!