断点回归RDD指南

断点回归RDD论文怎么写 | 学境思源AcademicIdeas模糊断点/清晰断点与工具变量法IV的对比

断点回归(RDD)论文怎么写?学境思源(AcademicIdeas)详解RDD原理(清晰断点与模糊断点)、带宽选择与McCrary检验、结果可视化与有效性检验,以及在政策评估/经济学/公共卫生研究中的应用与Stata操作教程。

生成研究方法章节Stata实证论文写作

这个页面能先帮你做什么

  • 详解清晰断点(Sharp RDD)与模糊断点(Fuzzy RDD)的适用场景
  • 覆盖带宽选择(CCT/IK方法)与McCrary密度检验
  • 提供RDD结果可视化的标准绑图规范

断点回归设计(RDD)的核心思想与适用条件

断点回归(Regression Discontinuity Design,RDD)是一种准实验研究方法,利用"临界值"附近处理组与对照组的差异来识别因果效应。形象地说,RDD研究的是一个"分数线"附近的效应——过了线的学生(如受政策处理)vs没过线的学生(对照),两者在分数线附近的特征应该相近,从而可以推断政策的因果效应。

RDD的核心假设是:在临界值附近,个体无法精确操控处理状态,跨越临界与停留在临界两侧是"准随机"的。因此RDD被称为"准实验"方法中因果推断最强的一种。

清晰断点(Sharp RDD)与模糊断点(Fuzzy RDD)的区别

  • 【Sharp RDD(清晰断点)】在临界值c处,个体从对照100%变为处理(或反之)。处理变量在临界值处存在确定性的跳跃,适合政策有明确 eligibility threshold 的情形
  • 【Fuzzy RDD(模糊断点)】在临界值c处,个体接受处理的概率发生跳跃,但不是从0跳到100%。存在"依从"问题(部分跨越临界值的个体没接受处理),需要工具变量估计
  • 【如何区分】观察临界值两侧的处理概率:如果从0跳到1则为Sharp;如果从低于1跳到1(或从0跳到高于0)则为Fuzzy
  • 【选择依据】取决于研究设计的性质:政策有硬性门槛→Sharp;政策存在执行偏差→Fuzzy

RDD的带宽选择与McCrary密度检验

  • 【带宽选择】RDD只在临界值附近一个窄小区间(带宽)内估计,远离临界值则假设不成立。带宽过窄→样本少、方差大;带宽过宽→包含偏离临界值远的数据,偏差大
  • 【CCT带宽(Imbens-Kalyanaraman optimal bandwidth)】由Imbens和Kalyanaraman提出的最优带宽计算方法,是目前最推荐的方法。Stata命令:`rdrobust y x c, bwselect(cvdm)`
  • 【IK方法】Imbens-Karanam方法,与CCT略有差异,可作为稳健性检验
  • 【McCrary密度检验(Manipulation Test)】检验在临界值处密度是否连续,即个体是否"操控"了分配变量。如果检验显著说明存在自我选择,RDD识别无效
  • 【结果解读】McCrary检验p>0.05说明无法拒绝密度连续原假设,RDD有效;p<0.05则说明可能存在操控,需要谨慎解读

RDD有效性检验与稳健性检验清单

  • 【McCrary密度检验】检验分配变量是否被操控(见上)
  • 【协变量连续性检验】检验在临界值处基线协变量(年龄、性别等)是否连续。如果不连续说明存在选择偏差
  • 【局部多项式估计】用不同阶数(一次/二次/三次)的多项式拟合断点两侧,检验结果是否稳健
  • 【不同带宽检验】用0.5倍、1.5倍、2倍最优带宽分别估计,检验结果是否一致
  • 【安慰剂检验】在虚假临界值处估计RDD,应该得到不显著的结果(零效应安慰剂)
  • 【输出结果边界效应图】用rdplot绑制断点可视化图,直观展示断点效应的存在

RDD结果的标准报告格式与Stata操作

  • 【论文中必须报告】分配变量与临界值;带宽选择方法及带宽值;样本量(断点两侧各多少);断点估计系数及标准误;置信区间;McCrary检验结果
  • 【Stata核心命令】`rdrobust y x c`(推荐,自动做最优带宽和robust估计);`rdplot y x, c(c)`(绑制断点图)
  • 【选项说明】`c()`设定临界值;`bwselect()`选择带宽方法;`kernel()`选择核函数(三角核/均匀核,推荐三角核)
  • 【结果图规范】RDD断点图应该清晰显示断点处的跳跃,常用binscatter绑制,图上标注临界值、断点估计值和置信区间

常见问题

RDD和双重差分(DID)哪个更适合我的研究?
RDD要求存在一个明确的临界值(处理分配规则),且研究对象无法精确操控分配变量;DID要求处理组和对照组在政策实施前趋势平行。RDD适合政策有硬性门槛的研究(如分数线、年龄门槛);DID适合面板数据且满足平行趋势假设的政策评估。
带宽选多少合适?
使用Imbens-Kalyanaraman最优带宽方法(rdrobust命令的默认设置),程序会自动计算最优带宽。研究中可以同时报告多个带宽(如0.5倍和2倍最优带宽)的结果作为稳健性检验。手动选择带宽是审稿人常质疑的点,建议用IK或CCT方法。
模糊断点(Fuzzy RDD)的估计方法是什么?
模糊断点使用工具变量法(2SLS)估计——用"是否跨越临界值"作为"是否接受处理"的工具变量。Stata命令:`ivregress 2sls y (treat = crossing) x`,其中treat为实际处理状态,crossing为跨越临界值的指示变量。
RDD的结果图(rdplot)如何绑制才符合学术规范?
学术规范的RDD图应包含:1)断点两侧的拟合线(可选一次或二次拟合);2)置信区间带;3)临界值垂直线;4)横纵轴标签和标题。避免过度平滑(如高阶多项式拟合),也不要带宽过窄导致点太稀疏。
样本量很小能做RDD吗?
RDD对样本量的要求取决于断点两侧的样本密度。如果在临界值附近有足够多的观测(通常至少每侧50-100个样本),可以做RDD。样本量小时建议用均匀核(uniform kernel)替代三角核,并在论文中明确说明样本局限性。
生成研究方法章节Stata实证论文写作EViews计量经济学SPSS进阶指南