8.1 本章介绍（面板数据与固定效应模型）

揭开个体异质性的面纱：从横截面到面板的飞跃

本章目标

完成本章后，你将能够：

理解面板数据的结构和优势（长格式 vs 宽格式）
掌握固定效应（FE）和随机效应（RE）模型的原理
识别和解决遗漏变量偏差（Omitted Variable Bias）
实施 Hausman 检验选择 FE vs RE
处理双向固定效应（Two-Way FE）和聚类标准误
使用 Python 的 linearmodels 库进行面板回归
复现经典的面板数据研究（Mincer 工资方程等）

为什么面板数据是计量经济学的黄金标准？

面板数据：横截面与时间序列的完美结合

在实证研究中，我们常常面临三种数据类型：

数据类型	结构	优势	劣势
横截面数据	多个个体，单一时点	样本量大，易收集	无法控制不可观测异质性
时间序列数据	单一个体，多个时点	可追踪动态变化	样本量小，难以识别因果
面板数据	多个个体，多个时点	控制异质性 + 动态追踪	数据收集成本高

面板数据的革命性优势：

核心问题：如何利用面板数据的"双重维度"来识别因果效应？

面板数据的核心优势

优势 1：控制不可观测的个体异质性 ⭐⭐⭐

经典场景：研究教育对工资的影响

横截面 OLS 回归：

问题：遗漏变量偏差！

能力（ability）：聪明的人既受更多教育，也赚更多钱
家庭背景：富裕家庭的孩子既能接受好教育，也有更多资源
性格特质：进取心强的人既努力学习，也工作出色

这些变量不可观测（无法测量），但同时影响教育和工资，导致有偏！

面板数据的解决方案：固定效应模型

假设我们观测同一批人 2 年：

其中是个体固定效应，包含所有不随时间变化的个体特征（能力、家庭背景等）。

差分消除固定效应：

神奇之处：被消除了！我们只利用个体内部的时间变化（within variation）来估计。

优势 2：更多的变异，更高的效率

样本量的飞跃：

横截面：1000 个人 →
面板数据：1000 人 × 5 年 →

更重要的是变异的分解：

面板数据包含两种变异：

组间变异（Between Variation）：不同个体之间的差异
组内变异（Within Variation）：同一个体不同时间的差异

固定效应模型只利用组内变异，这是控制异质性的关键！

优势 3：动态分析和因果识别

面板数据允许我们：

追踪变化：观察政策前后的变化（DID 的基础）
滞后效应：研究对的影响
动态面板：研究对的影响（持续性）
事件研究：分析政策效应的时间路径

面板数据 vs 横截面数据：一个具体例子

例子：教育回报率的估计

研究问题：多受一年教育，工资会增加多少？

横截面 OLS（有偏估计）

数据：2020 年，1000 名工人

结果：（15% 的回报率）

问题：高估了！因为遗漏了能力（ability）

聪明的人既受更多教育，也赚更多钱
我们把能力的效应误归因于教育的效应

面板固定效应（无偏估计）

数据：1000 名工人，2015-2020 年（6 年）

其中：

：个体固定效应（控制能力、家庭背景等）
：时间固定效应（控制宏观经济趋势）

结果：（8% 的回报率）

为什么更可信？

我们只利用同一个人在不同时间的变化
例如：某人 2018 年读了一年夜校（教育 +1 年），2019 年工资涨了 8%
能力在这 2 年没变，被控制了

面板数据的数学表达

通用面板回归模型

符号定义：

：个体索引（如公司、个人、国家）
：时间索引（如年份）
：因变量（如工资、利润、GDP）
：自变量（可以是时变的或不变的）
：个体固定效应（不随时间变化的个体特征）
：时间固定效应（对所有个体相同的时间趋势）
：随机误差项（idiosyncratic error）

三种面板回归方法

方法 1：混合 OLS（Pooled OLS）

模型：

假设：所有个体和时间都相同，忽略面板结构

Python 实现：

python

import statsmodels.api as sm

# 忽略面板结构，直接 OLS
X = sm.add_constant(panel_data[['x1', 'x2']])
model_pooled = sm.OLS(panel_data['y'], X).fit()
print(model_pooled.summary())

优点：简单，效率高缺点：

忽略个体异质性 → 遗漏变量偏差
标准误有偏（未考虑组内相关）

何时使用：仅作为基准对比，实际研究中很少单独使用

方法 2：固定效应模型（Fixed Effects, FE）⭐

模型：

核心思想：允许每个个体有自己的截距

估计方法：

组内变换（Within Transformation）：对每个变量做去均值
回归去均值后的变量：

Python 实现：

python

from linearmodels.panel import PanelOLS

# 设置面板索引
panel_data = panel_data.set_index(['entity_id', 'time'])

# 固定效应回归
model_fe = PanelOLS(panel_data['y'], panel_data[['x1', 'x2']],
                    entity_effects=True).fit()
print(model_fe)

优点：

控制所有不随时间变化的个体特征（可观测 + 不可观测）
无需观测（被差分消除）

缺点：

无法估计不随时间变化的变量（如性别、种族）
损失自由度（每个个体消耗一个自由度）

何时使用：与相关时（内生性问题）

方法 3：随机效应模型（Random Effects, RE）

模型：

其中是随机的个体效应

核心思想：不是固定参数，而是从分布中随机抽取的

关键假设：（个体效应与自变量不相关）

估计方法：广义最小二乘（GLS）/ 可行 GLS（FGLS）

Python 实现：

python

from linearmodels.panel import RandomEffects

model_re = RandomEffects(panel_data['y'], panel_data[['x1', 'x2']]).fit()
print(model_re)

优点：

可以估计不随时间变化的变量
更有效率（使用组间和组内变异）

缺点：

如果与相关，估计会有偏

何时使用：与 不相关时（外生性成立）

FE vs RE：如何选择？

Hausman 检验：科学的决策工具

核心问题：与是否相关？

决策规则：

如果相关：使用 FE（一致估计）
如果不相关：使用 RE（更有效率）

Hausman 检验：

原假设：（RE 是一致的）

决策：

：拒绝 → 使用 FE
：接受 → 使用 RE

Python 实现：

python

from linearmodels.panel import compare

# 同时估计 FE 和 RE
fe_model = PanelOLS(y, X, entity_effects=True).fit()
re_model = RandomEffects(y, X).fit()

# Hausman 检验
hausman_result = compare({'FE': fe_model, 'RE': re_model})
print(hausman_result)

实践建议：

经济学研究通常使用 FE（因为内生性很常见）
教育学、社会学有时使用 RE（个体抽样较随机）
保守策略：同时报告 FE 和 RE，展示稳健性

面板数据的示例场景

场景 1：劳动经济学 - 工资决定因素

研究问题：教育、经验对工资的影响

数据结构：

名工人
年（1980-1987）
总观测值：

关键变量：

：对数工资
：教育年限（education）、工作经验（experience）、工会成员（union）

为什么需要面板数据？

能力偏差：高能力者既受更多教育，也赚更多钱
固定效应：控制能力、家庭背景、性格等不可观测因素

场景 2：公司金融 - 资本结构决定

研究问题：什么因素影响公司杠杆率？

数据结构：

家上市公司
年（2010-2019）
总观测值：2000

关键变量：

：杠杆率（Debt / Assets）
：盈利能力（ROA）、公司规模（log(Assets)）、成长机会（Tobin's Q）

为什么需要固定效应？

行业差异：不同行业有不同的最优杠杆率
公司特质：CEO 风格、公司文化等不可观测因素

场景 3：发展经济学 - 经济增长

研究问题：民主制度对经济增长的影响

数据结构：

个国家
年（1970-2019）
总观测值：5000

关键变量：

：GDP 增长率
：民主指数、教育水平、投资率

为什么需要双向固定效应？

国家固定效应：控制地理、文化、制度等
年份固定效应：控制全球经济周期、石油危机等

️ Python 面板数据工具链

核心库

库	主要功能	安装
pandas	数据处理（MultiIndex）	`pip install pandas`
linearmodels	面板回归（FE, RE, 2SLS）	`pip install linearmodels`
statsmodels	基础回归、Hausman 检验	`pip install statsmodels`
matplotlib	可视化	`pip install matplotlib`
seaborn	高级可视化	`pip install seaborn`

数据结构：长格式 vs 宽格式

长格式（Long Format）：每一行是一个观测值（推荐）

python

   entity_id  time  wage  education  experience
0         1  2015  5000         12           3
1         1  2016  5200         12           4
2         1  2017  5500         13           5
3         2  2015  6000         16           5
4         2  2016  6300         16           6

宽格式（Wide Format）：每一行是一个个体

python

   entity_id  wage_2015  wage_2016  wage_2017  ...
0         1       5000       5200       5500  ...
1         2       6000       6300       6600  ...

转换：

python

# 宽格式 → 长格式
long_data = wide_data.melt(id_vars=['entity_id'],
                            var_name='time',
                            value_name='wage')

# 长格式 → 宽格式
wide_data = long_data.pivot(index='entity_id',
                             columns='time',
                             values='wage')

设置面板索引

linearmodels 要求 MultiIndex：

python

# 设置双层索引：(entity, time)
panel_data = panel_data.set_index(['entity_id', 'time'])

# 查看索引
print(panel_data.index)
# MultiIndex([( 1, 2015),
#             ( 1, 2016),
#             ( 1, 2017),
#             ...])

快速上手：第一个面板回归

示例：模拟工资数据

python

import numpy as np
import pandas as pd
from linearmodels.panel import PanelOLS
import matplotlib.pyplot as plt
import seaborn as sns

# 中文字体设置
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']  # macOS
plt.rcParams['axes.unicode_minus'] = False
sns.set_style("whitegrid")

# 设置随机种子
np.random.seed(42)

# 参数设置
N = 200  # 个体数
T = 5    # 时间期数
true_beta = 0.08  # 教育的真实回报率

# 模拟数据
data = []
for i in range(N):
    # 个体固定效应（能力）
    ability = np.random.normal(0, 0.5)

    for t in range(T):
        # 教育水平（随时间增长）
        education = 12 + t * 0.3 + np.random.normal(0, 0.5)

        # 工资（对数）
        # log(wage) = 1.5 + 0.08*education + ability + noise
        log_wage = 1.5 + true_beta * education + ability + np.random.normal(0, 0.1)

        data.append({
            'id': i,
            'year': 2015 + t,
            'log_wage': log_wage,
            'education': education,
            'ability': ability  # 实际研究中不可观测！
        })

df = pd.DataFrame(data)

print("=" * 70)
print("数据预览")
print("=" * 70)
print(df.head(10))
print("\n数据形状:", df.shape)
print("个体数:", df['id'].nunique())
print("时间期数:", df['year'].nunique())

# 1. 混合 OLS（有偏估计）
import statsmodels.api as sm

X_pooled = sm.add_constant(df[['education']])
model_pooled = sm.OLS(df['log_wage'], X_pooled).fit()

print("\n" + "=" * 70)
print("方法 1：混合 OLS（忽略面板结构）")
print("=" * 70)
print(f"教育系数（有偏）: {model_pooled.params['education']:.4f}")
print(f"标准误: {model_pooled.bse['education']:.4f}")
print(f"真实参数: {true_beta}")

# 2. 固定效应模型（无偏估计）
# 设置面板索引
df_panel = df.set_index(['id', 'year'])

model_fe = PanelOLS(df_panel['log_wage'],
                    df_panel[['education']],
                    entity_effects=True).fit(cov_type='clustered',
                                             cluster_entity=True)

print("\n" + "=" * 70)
print("方法 2：固定效应模型（控制个体异质性）")
print("=" * 70)
print(model_fe)

# 对比
print("\n" + "=" * 70)
print("估计对比")
print("=" * 70)
print(f"真实参数:        {true_beta:.4f}")
print(f"混合 OLS:        {model_pooled.params['education']:.4f} (有偏！)")
print(f"固定效应:        {model_fe.params['education']:.4f} (无偏)")

输出解读：

混合 OLS：系数 > 0.08（高估），因为能力与教育相关
固定效应：系数 ≈ 0.08（无偏），因为差分消除了能力

本章结构

第 1 节：本章介绍（当前）

面板数据的优势和应用场景
FE vs RE 的核心思想
快速上手面板回归

第 2 节：面板数据基础

面板数据结构（长/宽格式转换）
组内/组间变异分解
混合 OLS 的问题（遗漏变量偏差）
Python 数据处理技巧（pandas MultiIndex）

第 3 节：固定效应模型

FE 模型理论（组内变换、LSDV）
识别假设和因果解释
单向 FE vs 双向 FE
linearmodels.PanelOLS 完整实现
案例：工资决定因素

第 4 节：随机效应模型

RE 模型理论（GLS 估计）
RE vs FE 的选择标准
Hausman 检验实施
案例：公司资本结构

第 5 节：面板数据高级专题

聚类标准误（Clustered SE）
动态面板模型（Arellano-Bond）
面板数据的 DID 应用
不平衡面板处理

第 6 节：小结和本章复习

面板方法总结和决策树
10 道练习题
经典文献推荐

必读文献

奠基性论文

Mundlak, Y. (1978). "On the Pooling of Time Series and Cross Section Data." Econometrica, 46(1), 69-85.
- 奠定了 FE vs RE 的理论基础
Hausman, J. A. (1978). "Specification Tests in Econometrics." Econometrica, 46(6), 1251-1271.
- 提出了著名的 Hausman 检验
Arellano, M., & Bond, S. (1991). "Some Tests of Specification for Panel Data: Monte Carlo Evidence and an Application to Employment Equations." Review of Economic Studies, 58(2), 277-297.
- 动态面板模型的经典文献

核心概念速查

概念	定义	何时使用
混合 OLS	忽略面板结构	仅作基准对比
固定效应（FE）	控制不可观测个体特征	与相关
随机效应（RE）	假设个体效应随机	与不相关
组内变换	对变量去均值	FE 的估计方法
LSDV	每个个体加虚拟变量	FE 的另一种实现
Hausman 检验	检验	选择 FE vs RE
双向 FE	同时控制个体和时间	控制宏观趋势
聚类标准误	调整组内相关	面板数据的标准做法

准备好了吗？

面板数据是现代实证研究的核心工具。掌握它，你将能够：

解决遗漏变量偏差，获得更可信的因果估计
在顶级期刊发表面板数据研究
理解经济学中 80% 的实证论文

记住核心思想：

"Panel data allows us to control for unobserved heterogeneity that is correlated with the regressors—the holy grail of causal inference!"

让我们开始深入学习第2节：面板数据基础！

从横截面到面板，揭开因果推断的新篇章！

8.1 本章介绍（面板数据与固定效应模型） ​

本章目标 ​

为什么面板数据是计量经济学的黄金标准？ ​

面板数据：横截面与时间序列的完美结合 ​

面板数据的核心优势 ​

优势 1：控制不可观测的个体异质性 ⭐⭐⭐ ​

优势 2：更多的变异，更高的效率 ​

优势 3：动态分析和因果识别 ​

面板数据 vs 横截面数据：一个具体例子 ​

例子：教育回报率的估计 ​

横截面 OLS（有偏估计） ​

面板固定效应（无偏估计） ​

面板数据的数学表达 ​

通用面板回归模型 ​

三种面板回归方法 ​

方法 1：混合 OLS（Pooled OLS） ​

方法 2：固定效应模型（Fixed Effects, FE）⭐ ​

方法 3：随机效应模型（Random Effects, RE） ​

FE vs RE：如何选择？ ​

Hausman 检验：科学的决策工具 ​

面板数据的示例场景 ​

场景 1：劳动经济学 - 工资决定因素 ​

场景 2：公司金融 - 资本结构决定 ​

场景 3：发展经济学 - 经济增长 ​

️ Python 面板数据工具链 ​

核心库 ​

数据结构：长格式 vs 宽格式 ​

设置面板索引 ​

快速上手：第一个面板回归 ​

示例：模拟工资数据 ​

本章结构 ​

第 1 节：本章介绍（当前） ​

第 2 节：面板数据基础 ​

第 3 节：固定效应模型 ​

第 4 节：随机效应模型 ​

第 5 节：面板数据高级专题 ​

第 6 节：小结和本章复习 ​

必读文献 ​

奠基性论文 ​

推荐教材 ​

核心概念速查 ​

准备好了吗？ ​

8.1 本章介绍（面板数据与固定效应模型）

本章目标

为什么面板数据是计量经济学的黄金标准？

面板数据：横截面与时间序列的完美结合

面板数据的核心优势

优势 1：控制不可观测的个体异质性 ⭐⭐⭐

优势 2：更多的变异，更高的效率

优势 3：动态分析和因果识别

面板数据 vs 横截面数据：一个具体例子

例子：教育回报率的估计

横截面 OLS（有偏估计）

面板固定效应（无偏估计）

面板数据的数学表达

通用面板回归模型

三种面板回归方法

方法 1：混合 OLS（Pooled OLS）

方法 2：固定效应模型（Fixed Effects, FE）⭐

方法 3：随机效应模型（Random Effects, RE）

FE vs RE：如何选择？

Hausman 检验：科学的决策工具

面板数据的示例场景

场景 1：劳动经济学 - 工资决定因素

场景 2：公司金融 - 资本结构决定

场景 3：发展经济学 - 经济增长

️ Python 面板数据工具链

核心库

数据结构：长格式 vs 宽格式

设置面板索引

快速上手：第一个面板回归

示例：模拟工资数据

本章结构

第 1 节：本章介绍（当前）

第 2 节：面板数据基础

第 3 节：固定效应模型

第 4 节：随机效应模型

第 5 节：面板数据高级专题

第 6 节：小结和本章复习

必读文献

奠基性论文

推荐教材

核心概念速查

准备好了吗？