Stata实证研究指南
Stata实证论文写作指南 | 回归分析、面板数据与因果推断从入门到精通
Stata实证论文怎么写?本指南覆盖Stata基本操作、回归分析(OLS/Logit/Tobit)、面板数据模型(固定效应/随机效应)、工具变量法与因果推断,适用于经济学、金融学、管理学实证论文。
这个页面能先帮你做什么
- 从数据导入到回归结果输出的完整Stata操作流程
- 固定效应/随机效应/Hausman检验的判断标准
- Logit/Tobit/面板数据等常见模型的Stata命令汇总
为什么实证论文常用Stata而不是SPSS
Stata是计量经济学和实证研究领域最主流的软件。相比SPSS,Stata的优势在于:命令可复制(所有操作可写成.do文件,方便审稿人和读者重现结果);统计方法更丰富(尤其是因果推断和面板数据方法);数据处理能力强(适合大样本微观数据)。
对于经济学、金融学、公共政策、管理学等需要做因果推断的实证论文,Stata几乎是必选工具。
Stata基本操作:数据导入与描述性统计
- 【导入Excel数据】clear; import excel "data.xlsx", sheet("Sheet1") firstrow
- 【导入CSV数据】insheet using "data.csv", comma
- 【描述性统计】summarize Y X1 X2 X3, detail(输出均值、标准差、最大最小值、分位数)
- 【相关系数矩阵】pwcorr Y X1 X2 X3, star(0.05)(显示显著性星号)
- 【数据合并】merge 1:1 id year using "panel.dta"(面板数据合并)
回归分析命令汇总与结果解读
- 【OLS回归】regress Y X1 X2 X3, robust(robust选项使用异方差稳健标准误)
- 【Logit回归】logit Y X1 X2 X3, robust; margins, dydx(*)(边际效应计算)
- 【Tobit回归】tobit Y X1 X2 X3, ll(0) ul(100)(左侧截断)
- 【结果输出】outreg2 using result.doc, replace见下三线表格式的回归结果
- 结果解读重点:R²(模型解释力)、系数方向与显著性(* p<0.1, ** p<0.05, *** p<0.01)、系数大小(标准化系数用于比较重要性)
面板数据分析:固定效应 vs 随机效应怎么选
- 【固定效应模型】xtreg Y X1 X2, fe robust(控制不可观测的个体异质性)
- 【随机效应模型】xtreg Y X1 X2, re robust
- 【Hausman检验】hausman fe re(p < 0.05用固定效应,否则用随机效应)
- 【双向固定效应】xtreg Y X1 X2 i.year, fe robust(同时控制个体和时间固定效应)
- 【聚类稳健标准误】在regress后加vce(cluster id)以处理组内相关性
因果推断高级方法:工具变量、倍差法、断点回归
- 【工具变量法(IV-2SLS)】ivreg2 Y X1 (X2 = Z1 Z2), robust first(Z1/Z2为工具变量);第一阶段F统计量>10说明不是弱工具变量
- 【倍差法(DID)】reg Y treat post treat×post, robust;平行趋势假设是DID的核心前提,需要在政策实施前验证
- 【倾向得分匹配(PSM)】psmatch2 treatment X1 X2 X3, outcome(Y) logit neighbor(1) common;匹配后需做平衡性检验
- 注意:越是高级的方法对数据质量和识别策略要求越高,不要为了"方法看起来高级"而强行使用,应根据研究问题和数据可获得性选择最合适的方法
常见问题
- Stata的regress命令默认输出普通标准误,需要改成稳健标准误吗?
- 在实证论文中,几乎总是应该使用稳健标准误(robust)。普通标准误假设误差项同方差(Homoscedasticity),但实际数据几乎必然存在异方差。使用robust选项后,标准误会经过HC0/HC1调整,在异方差情况下仍然有效。几乎所有顶级期刊的实证论文都要求报告稳健标准误。
- Hausman检验结果不显著,应该用固定效应还是随机效应?
- Hausman检验p值>0.05时,使用随机效应模型(RE);p值<0.05时,使用固定效应模型(FE)。如果Hausman检验不显著(p>0.05),说明FE和RE的估计结果没有系统性差异,RE更有效率(因为它同时利用了组内和组间信息)。但如果你的研究主要关注时间不变的变量(如性别、民族)的影响,必须用RE。
- 面板数据一定要做平稳性检验(单位根检验)吗?
- 如果使用短期面板数据(N较小,T较大,如N=30个省份,T=10年),建议做LLC或IPS单位根检验以确认变量平稳性,避免伪回归问题。但对于典型的微观面板数据(CFPS、CHNS等大样本调查数据,N>10000,T=3-5),单位根检验的功效有限,且在差分后可能损失样本量,可以不强制要求。
- 可以用Stata做中介效应检验吗?
- 可以,但Stata做中介效应的主流方法是Bootstrap。推荐使用sgmediation2命令(需安装)或手动用bootstrap做间接效应检验。Stata的中介效应检验不如Mplus和R的lavaan包方便,如果你需要做复杂的中介-调节联合模型,建议用R的lavaan包。
- 实证结果应该报告哪些表格?
- 标准实证论文至少包含三个表格:(1)描述性统计表(均值、标准差、相关系数);(2)基准回归表(主要解释变量的回归系数、稳健标准误、R²);(3)稳健性检验表(替换变量、替换模型、工具变量等)。使用三线表格式(顶线、表头线、底线),符合学术规范。