Module 14 Double ML与因果AI前沿

当机器学习遇见因果推断：从去偏估计到因果发现的前沿之旅

本章目标

完成本章后，你将能够：

理解Double/Debiased Machine Learning的核心思想
掌握交叉拟合与Neyman正交性的原理
使用econml和doubleml库实现DML
了解因果发现算法（PC, FCI, GES）的基本逻辑
理解Shift-Share IV等前沿工具变量方法
认识LLM和AI技术在因果推断中的新兴应用
整合Modules 1-13的全部知识，形成完整的因果推断视野

为什么需要因果AI？

从预测到因果：AI时代的核心问题

机器学习在过去二十年取得了令人瞩目的成就——从图像识别到自然语言处理，从推荐系统到自动驾驶。但在社会科学和政策评估领域，一个根本性的问题始终困扰着研究者：

预测准确理解因果

维度	ML预测	因果推断
目标	预测精度	无偏因果效应
关注
正则化	鼓励（防过拟合）	谨慎（可能引入偏差）
变量选择	越多越好	必须理论驱动
评估	预测误差（MSE, AUC）	因果效应估计的无偏性

ML思维的陷阱："加入所有变量，让模型选择"。

因果推断的警告：控制对撞变量（collider）引入偏差！控制中介变量（mediator）阻断因果路径！

两个世界的融合

2018年，Victor Chernozhukov等人在The Econometrics Journal发表了具有里程碑意义的论文，提出了Double/Debiased Machine Learning框架。这篇论文优雅地解决了一个长期困扰计量经济学家的问题：

如何在利用机器学习灵活性的同时，保持因果效应估计的-一致性和渐近正态性？

答案的核心在于两个关键思想：交叉拟合（Cross-Fitting）和Neyman正交性（Neyman Orthogonality）。

Double Machine Learning：核心直觉

部分线性模型

考虑一个经典的因果推断场景：

其中：

：结果变量
：处理变量（我们关心其因果效应）
：高维协变量（混淆变量）
：因果效应参数（我们要估计的目标）
：结果对协变量的未知函数
：处理对协变量的未知函数（倾向得分的推广）

核心问题：和都是复杂的非参数函数，传统OLS无法处理。ML可以灵活地估计它们——但ML的正则化偏差会"污染"的估计。

DML的天才解决方案

步骤1：残差化（Partialling Out）

用ML模型分别估计：

步骤2：估计因果效应

在残差上做简单回归：

步骤3：交叉拟合

将样本分为折，每折的ML预测使用其他折的数据训练，避免过拟合偏差。

关键性质：即使ML模型的估计和不完美（收敛速度慢于），仍然是-一致且渐近正态的！

因果发现：从"给定DAG"到"学习DAG"

范式转变

在前面的章节中（Module 1-13），我们的因果推断都基于一个前提：因果图（DAG）由研究者根据领域知识给定。

但如果我们不知道因果结构呢？如果我们想从数据中学习因果关系的方向呢？

这就是因果发现（Causal Discovery）的研究领域——Judea Pearl称之为因果推断的"圣杯"。

主要算法家族

1. 基于约束的方法

PC算法（Peter-Clark）：通过条件独立性检验逐步删除边
FCI算法（Fast Causal Inference）：允许隐变量存在

2. 基于得分的方法

GES（Greedy Equivalence Search）：在等价类空间中贪心搜索

3. 基于函数形式的方法

LiNGAM：利用非高斯性识别方向
ANM（Additive Noise Models）：利用噪声的不对称性

LLM与因果推断：新兴前沿

AI时代的新可能

大语言模型（LLM）正在为因果推断打开全新的可能性：

1. 因果图构建辅助

LLM可以基于领域文献自动建议因果假设
帮助研究者识别可能的混淆变量和中介变量

2. 自然语言处理中的因果推断

从文本数据中提取因果关系
使用LLM处理非结构化数据中的因果问题

3. 元分析与文献综合

自动提取已发表研究的因果效应估计
综合不同研究的证据

但需要谨慎

LLM本质上是基于相关性训练的——它学习的是，而非。因此，LLM可以辅助因果推断，但不能替代严格的因果识别策略。

"Correlation is not causation — and neither is a language model."

本章的知识定位

在全书中的位置

回顾我们的因果推断学习旅程：

模块	核心内容	核心方法
Module 1	反事实与RCT	潜在结果框架
Module 9	面板数据与固定效应	FE/RE估计
Module 10	双重差分	DID + 事件研究
Module 11	断点回归	RDD
Module 12	合成控制	SCM
Module 13	异质性效应	Causal Forest
Module 14	DML与因果AI	DML + 因果发现

Module 14是全书的终章——我们将站在因果推断的前沿，展望机器学习与因果推断融合的未来。

本章结构

第 1 节：本章介绍（当前）

因果AI的动机
DML的核心直觉
因果发现简介
LLM与因果推断

第 2 节：Double Machine Learning

部分线性模型
交叉拟合程序
Neyman正交性
Python实现（econml + doubleml）
模拟验证

第 3 节：因果发现与前沿方法

因果发现算法（PC, FCI, GES）
Shift-Share IV（Bartik工具变量）
现代Staggered DID进展
DoWhy因果推断框架
LLM/AI在因果推断中的应用

第 4 节：本章小结与展望

核心要点回顾
因果推断的未来
推荐资源
全书总结

️ Python工具包

核心库

库	主要功能	安装
econml	微软开发的因果ML库	`pip install econml`
doubleml	DML专用框架	`pip install doubleml`
dowhy	微软因果推断框架	`pip install dowhy`
causal-learn	因果发现算法	`pip install causal-learn`
pgmpy	概率图模型	`pip install pgmpy`
scikit-learn	基础ML工具	`pip install scikit-learn`

基础设置

python

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Double ML
from econml.dml import LinearDML, CausalForestDML
from doubleml import DoubleMLPLR, DoubleMLData

# 因果发现
from causallearn.search.ConstraintBased.PC import pc
from causallearn.search.ScoreBased.GES import ges

# 因果推断框架
import dowhy

# ML基础
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.linear_model import LassoCV
from sklearn.model_selection import cross_val_predict

# 可视化
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")

必读文献

奠基性论文

Chernozhukov, V., et al. (2018). "Double/Debiased Machine Learning for Treatment and Structural Parameters." The Econometrics Journal, 21(1), C1-C68.
- DML的核心论文（必读！）
Spirtes, P., Glymour, C., & Scheines, R. (2000). Causation, Prediction, and Search. MIT Press.
- 因果发现算法的经典著作
Borusyak, K., Hull, P., & Jaravel, X. (2022). "Quasi-Experimental Shift-Share Research Designs." Review of Economic Studies, 89(1), 181-213.
- Shift-Share IV的现代理论

方法论进展

Goodman-Bacon, A. (2021). "Difference-in-Differences with Variation in Treatment Timing." Econometrica, 89(5), 2291-2318.
- TWFE偏误与Bacon分解
Callaway, B., & Sant'Anna, P. H. (2021). "Difference-in-Differences with Multiple Time Periods." Journal of Econometrics, 225(2), 200-230.
- 现代Staggered DID

准备好了吗？

这是我们因果推断旅程的最后一站。在这里，传统计量经济学的严谨性遇上了机器学习的灵活性，因果推断的深度遇上了AI的广度。

我们将看到：

如何用Random Forest估计nuisance parameters，同时保持因果效应估计的-一致性
如何从数据中自动发现因果结构
如何将最新的AI技术应用于因果推断
如何整合全书的方法论武器库来解决真实世界的问题

"The credibility revolution in empirical economics has fundamentally changed how we think about evidence." — Joshua Angrist & Jorn-Steffen Pischke

让我们开始学习第2节：Double Machine Learning！

下一节：14.2 Double Machine Learning >>

Module 14 Double ML与因果AI前沿 ​

本章目标 ​

为什么需要因果AI？ ​

从预测到因果：AI时代的核心问题 ​

两个世界的融合 ​

Double Machine Learning：核心直觉 ​

部分线性模型 ​

DML的天才解决方案 ​

因果发现：从"给定DAG"到"学习DAG" ​

范式转变 ​

主要算法家族 ​

LLM与因果推断：新兴前沿 ​

AI时代的新可能 ​

但需要谨慎 ​

本章的知识定位 ​

在全书中的位置 ​

本章结构 ​

第 1 节：本章介绍（当前） ​

第 2 节：Double Machine Learning ​

第 3 节：因果发现与前沿方法 ​

第 4 节：本章小结与展望 ​

️ Python工具包 ​

核心库 ​

基础设置 ​

必读文献 ​

奠基性论文 ​

方法论进展 ​

推荐教材 ​

准备好了吗？ ​