第1讲 统计推断
• 线性回归、饱和模型、二元选择模型、方差估计
• 带惩罚项的线性回归:偏差—方差权衡、交叉验证法、自助法(bootstrap)
• Lasso、岭回归、Neyman正交、Double Lasso
第2讲 潜在结果框架
• RCM (Rubin Causal Model)
• 潜在结果
• 分配机制(treatment assignment)
• 因果效应参数(causal estimand)
• Lord悖论
• 因果识别
• 回归和因果识别
第3讲 因果图
• 三种基本结构
• 后门标准
• 混杂偏差和样本选择偏差
• 什么是好的控制变量和坏的控制变量
• *前门标准
• *do运算
第4讲 随机化实验
• 随机化实验的作用
• 随机化实验为什么是黄金标准?
• 随机化实验的分析
• Design-based和sampling-based方差
案例:
班级规模与学习成绩(Krueger, 1999),
种族与就业歧视(Bertrand and Mullainathan, 2004)、
竞选中名字在选票中的位置优势 (Ho and Imai, 2006)、
媒体的影响(Chen and Yang, 2019)
第5讲 非混杂性条件下的因果效应估计
最基本的识别条件是非混杂性 (unconfoundedness),也称为条件独立性假设 (CIA, Angrist and Pischke 2009),或根据观测变量进行的选择 (selection on the observables)或可忽略性 (ignorablity),是最基础的分配机制。这类策略的关键是通过(匹配)设计,模拟随机化实验。
• 匹配、倾向指数匹配(PSM, Rosenbaum and Rubin, 1983; Abadie and Imbens, 2006)
• 逆概率加权(Inverse probability weighting, IPW)
• 回归调整(regression adjustment)
• 双重稳健估计(double robust estimator)
• 双重机器学习(double/debiased machine learning)
案例:
培训的效果 (Dehejia and Wahba, 1999)、
精英大学的作用 (Dale and Kreuger, 2002)
第6讲 工具变量法
工具变量法在模拟非依从的随机化实验。
• 工具变量法的起源和基本思想
• 工具变量法的基本识别条件
• 如何选择工具变量,如何讨论工具变量的外生性条件?
• 工具变量法的选择和说服审稿人的办法
• 异质性因果效应下的工具变量法——LATE(Imbens and Angrist, 1994: Angrist, Imbens and Rubin, 1996)
• 工具变量法和非依从的随机化实验(noncompliance RE)
• 基于选择的工具变量法——Heckman两步法
• *未观测因素为基础的选择MTE——边际干预效应框架(Heckman and Vytlacil, 1999;2005)
案例:
出生季度和教育回报(Angrist and Krueger, 1991),
参军与收入(Angrist,1990)、
家庭规模和父母劳动供给(Angrist and Lavy, 1998)、
美国的教育回报(Carneiro et al., 2011)、
全民儿童照护服务的收益(Cornelissen, Dustmann and Schonbrg, 2018)
第7讲 固定效应方法
• 随机效应模型
• 固定效应模型
• Hausman检验
• 固定效应是什么
• 组内回归(within regression)和虚拟变量回归(LSDV)
• Stata命令reg、xtreg、areg、reghdfe的关系
案例:
双胞胎数据估计中国教育回报(Li, Liu and Zhang, 2012)
第8讲 经典双重差分法
双重差分法在模拟增量上的随机化实验,在线性假设下,属于固定效应模型。
• 共同/平行趋势假设(Parallel/Common Trend Assumption)、无预期假设(no anticipation assumption)、无溢出效应假设(no spillover effects assumption)、共同区间假设(overlap assumption)
• 经典DID的因果识别
• 经典DID的参数估计:回归方法、PSM-DID(Heckman et al. 1997, 1998)、逆概率加权估计量(Abadie, 2005)、双重稳健估计量(Sant’Anna and Zhao, 2020)
• 如何在回归模型中引入不时变的协变量Xi和时变协变量Xit?
案列:
移民冲击和工资(Card, 1990)、
最低工资调整和就业(Card and Krueger, 1994)、
911事件对美国办公楼的影响(Abadie and Dermisi, 2008)、
大学扩招和大学生失业(邢春冰和李实,2011)
第9讲 多期单一政策DID
经典DID的扩展,扩展到多期,仍然只有一个干预组和一个控制组。
• 基本识别条件:平行趋势假设、无预期假设和无溢出效应假设的重新表述。
• 平行趋势假设检验和动态模型构造(事件研究法设计)
• 平行趋势检验方法和敏感性分析
• 以个体出生年份(cohort)构成的DID,有时也称为cohort DID,并不是一种新的设计
案例:
茶叶价格和消失的女性(Qian, 2008)
土豆和人口及城市化(Nunn and Qian, 2011)
第10 讲 DID-IV设计
• DID和IV的结合:不满足平行趋势时的新设计
• 基本识别条件、因果识别过程
• 三重差分法(DDD):一种特殊的工具变量法
• 基本识别条件、因果识别过程
案例:
印尼建校项目对教育回报的影响(Duflo, 2001)
强制福利对劳动力市场的影响(Gruber, 1994)
第11讲 交错DID(staggered DID)
个体是逐渐受到政策影响的,不再只有单纯的干预组和控制组两组,而是有很多的干预组和控制组,而干预组被干预的时点不同,用这样的数据估计政策影响时,早期文献仍然沿用第10讲多期单一政策时的设计方法,采用双向固定效应模型(TWFE)估计,但最新的文献发现,在交错政策时,如果存在组间异质性(Goodman-Bacon, 2021)和时间上异质性(Sun and Abraham, 2021)时,TWFE估计量存在着偏差,事件研究法存在着污染偏差(Contamination bias)。
• 基本识别条件的讨论
• TWFE估计量在估计什么(Goodman-Bacon, 2021; de Chaisemartin and D'Haultfoeuille, 2020)
Ø Goodman-Bacon分解
• 事件研究法存在的偏差(Sun and Abraham, 2021)
• 如果正确的估计因果效应:
Ø Callaway and Santa’Anna(2021)非参数估计量
Ø Wooldridge(2021)回归估计量
案例:
大而坏的银行:放松管制与收入分配(Beck et al., 2010; Baker et al., 2022)
第12讲 合成控制法
• 缺失值填补(Borusyak et al., 2021; Liu et al., 2021)
• 合成控制法(Abadie et al., 2010)
• 合成双重差分法(Arkhangelsky et al., 2021)
• 广义合成控制法(Xu, 2017)
案例:
加州控烟法案的效果(Abadie et al., 2010);
德国统一的经济影响(Abadie et al., 2015)
第13讲 断点回归设计
最接近于完全随机化实验的研究设计,教育学家发明(Thistlethwaite and Compbell, 1960),作者认为价值不大,但被经济学家挖掘出来,焕发异彩(Hahn et al. 2001)。本章讨论RDD、Fuzzy RDD、Kink RDD的基本识别条件、估计方法、带宽选择方法等。
• 精确断点回归设计:局部随机化假设、连续性假设
• 模糊断点回归设计:工具变量法
• 弯折断点回归设计:导数上的断点
案例:
美国政党的在位优势(Lee,2008)、
空气污染和寿命(Chen et al., 2013;Ebenstein et al., 2017)、
学区房的价值(Black, 1999)、
户口的价值(Chen et al., 2019)。
第14讲 因果中介分析
• 传统中介分析理论
• 自然间接效应(中介效应)、自然直接效应、控制直接效应
• 因果中介效应的基本识别条件:序贯可忽略性
• 工具变量因果中介模型
案例:
教育通过职业影响收入的因果中介分析