Py学习  »  机器学习算法

24暑期-因果推断方法4天深度学习与应用

经管之家 • 6 月前 • 191 次点击  


经济学实证研究中

•  统计推断的基本内容,线性回归只是一种参数估计方法,MLE/GMM也是参数估计方法?


•  为什么要考虑高维情形下的参数估计、变量选择方法?


•  OLS在估计什么?和因果效应参数是什么关系?


•  什么是因果识别?因果识别和参数识别的区别?


•  如何进行因果推断,如何引入识别条件?


•  如何选择控制变量,基本的原则是什么?


•  什么是固定效应,如何加固定效应?


•  如果选择工具变量,如何说明工具变量的有效性,应该如何思考独立性和排除性假设?


•  如何利用自然实验,包括工具变量、双重差分、断点回归,来识别因果效应?


•  在多期交错政策(staggered)下,双向固定效应方法(TWFE)在估计什么,Goodman-Bacon分解如何判断TWFE估计量的合理性。


•  在交错政策下,事件研究法为何不能用,如果运用正确的方法,包括Callaway and Sant’Anna (2021)的非参数估计量和Wooldridge(2021)的回归估计量。


•  如何进行因果中介分析?


探讨因果关系是经济学实证研究的主要目的,因果关系一般是无法观测到的,我们只能观测到相关性,如何从观测到的相关性中推断出因果效应?


基本有用的计量经济学——因果推断方法课程


将明确经济学实证研究的基本步骤:

首先,定义清楚目标参数(causal estimand),其次,构造识别策略,建立统计参数(statistical estimand),最后,构造估计量(estimator),得到目标参数的估计值。


由目标参数到统计参数,由观测不到的因果效应转变化可以观测到的统计参数的过程,即因果推断。利用样本信息构造估计量,估计统计参数,即统计推断。


2024暑期 因果推断第3期 精彩开讲

开课时间:2024年7月28-31日 (四天)


课程安排:上午 9:00-12:00;下午 14:00-17:00; 课后答疑


授课方式:北京现场,同步远程直播(均提供全程录播在线回放)



课程特色



1、 《基本有用的计量经济学》(第2版)最新内容。进行了全面更新,对统计推断和因果推断进行了区分,对因果推断和因果识别进行了明确定义,并将估计方法和因果推断区分开来,吸收了最近几年各类方法的最新发展,并在统一的框架内进行详细解构,让读者更容易掌握因果推断的基本内容。


2、 讲清楚因果效应参数(causal estimands)统计参数(statistical estimands)统计量(estimators)的区别。实证分析的第一步就是明确自己想回答的问题,定义清楚因果效应参数或目标参数(target parameters),才能根据研究问题的背景信息和先验知识,构造识别策略。


3、因果推断的关键在于分配机制(assignment mechanism),识别策略主要是对分配机制的描述,通过引入合理的识别条件,描述可能的分配机制,才能识别出因果效应。理解了分配机制,也就理解了因果推断的核心内容,对于匹配、IV、DID(SC)、RDD等具体的方法也就更容易理解。


4、引入高维情形下的统计推断和因果推断,以适应大数据实证的需要。并引入因果中介理论的介绍,讨论如何使中介分析更加可信。


5、在实证分析中,原因变量(或核心解释变量)和控制变量的地位是不同的,如何才能合理的选择控制变量?控制变量越多越好吗?选择控制变量的基本原则是什么?


6、如何选择工具变量?如何思考工具变量的独立性和排除性假设?如何合理化(justify)你的工具变量?


7、面板数据中固定效应是什么,起着什么作用,如何加固定效应?


8、估计方法和目标参数之间是什么关系,关于交错DID(staggered DID)的最新发展,充分反映了这一矛盾。OLS、TSLS、TWFE作为经济学家常用的估计方法,很多时候并不能给研究者想要的目标参数,并不能回答作者想回答的问题。如何解决?



课程大纲


第1讲 统计推断

•   线性回归、饱和模型、二元选择模型、方差估计

•   带惩罚项的线性回归:偏差—方差权衡、交叉验证法、自助法(bootstrap)

•   Lasso、岭回归、Neyman正交、Double Lasso


第2讲 潜在结果框架

•  RCM (Rubin Causal Model)

•  潜在结果

•  分配机制(treatment assignment)

•  因果效应参数(causal estimand)

•  Lord悖论

•  因果识别

•  回归和因果识别


第3讲 因果图

•  三种基本结构

•  后门标准

•  混杂偏差和样本选择偏差

•  什么是好的控制变量和坏的控制变量

•  *前门标准

•  *do运算


第4讲 随机化实验

• 随机化实验的作用

• 随机化实验为什么是黄金标准?

• 随机化实验的分析

• Design-based和sampling-based方差

案例:
班级规模与学习成绩(Krueger, 1999),
种族与就业歧视(Bertrand and Mullainathan, 2004)、
竞选中名字在选票中的位置优势 (Ho and Imai, 2006)、

媒体的影响(Chen and Yang, 2019)


第5讲 非混杂性条件下的因果效应估计

最基本的识别条件是非混杂性 (unconfoundedness),也称为条件独立性假设 (CIA, Angrist and Pischke 2009),或根据观测变量进行的选择 (selection on the observables)或可忽略性 (ignorablity),是最基础的分配机制。这类策略的关键是通过(匹配)设计,模拟随机化实验。

•  匹配、倾向指数匹配(PSM, Rosenbaum and Rubin, 1983; Abadie and Imbens, 2006)

•  逆概率加权(Inverse probability weighting, IPW)

•  回归调整(regression adjustment)

•  双重稳健估计(double robust estimator)

• 双重机器学习(double/debiased machine learning)

案例:

培训的效果 (Dehejia and Wahba, 1999)、

精英大学的作用 (Dale and Kreuger, 2002)


第6讲 工具变量法

工具变量法在模拟非依从的随机化实验。

•  工具变量法的起源和基本思想

•  工具变量法的基本识别条件

•  如何选择工具变量,如何讨论工具变量的外生性条件?

•  工具变量法的选择和说服审稿人的办法

•  异质性因果效应下的工具变量法——LATE(Imbens and Angrist, 1994: Angrist, Imbens and Rubin, 1996)

•  工具变量法和非依从的随机化实验(noncompliance RE)

•  基于选择的工具变量法——Heckman两步法

•  *未观测因素为基础的选择MTE——边际干预效应框架(Heckman and Vytlacil, 1999;2005)

案例:

出生季度和教育回报(Angrist and Krueger, 1991),
参军与收入(Angrist,1990)、
家庭规模和父母劳动供给(Angrist and Lavy, 1998)、
美国的教育回报(Carneiro et al., 2011)、
全民儿童照护服务的收益(Cornelissen, Dustmann and Schonbrg, 2018)


第7讲 固定效应方法

•  随机效应模型

•  固定效应模型

•  Hausman检验

•  固定效应是什么

•  组内回归(within regression)和虚拟变量回归(LSDV)

•   Stata命令reg、xtreg、areg、reghdfe的关系

案例:
双胞胎数据估计中国教育回报(Li, Liu and Zhang, 2012)


第8讲 经典双重差分法

双重差分法在模拟增量上的随机化实验,在线性假设下,属于固定效应模型。

•  共同/平行趋势假设(Parallel/Common Trend Assumption)、无预期假设(no anticipation assumption)、无溢出效应假设(no spillover effects assumption)、共同区间假设(overlap assumption)

•  经典DID的因果识别

•  经典DID的参数估计:回归方法、PSM-DID(Heckman et al. 1997, 1998)、逆概率加权估计量(Abadie, 2005)、双重稳健估计量(Sant’Anna and Zhao, 2020)

•  如何在回归模型中引入不时变的协变量Xi和时变协变量Xit?

案列:
移民冲击和工资(Card, 1990)、
最低工资调整和就业(Card and Krueger, 1994)、
911事件对美国办公楼的影响(Abadie and Dermisi, 2008)、
大学扩招和大学生失业(邢春冰和李实,2011)


第9讲 多期单一政策DID

经典DID的扩展,扩展到多期,仍然只有一个干预组和一个控制组。

•   基本识别条件:平行趋势假设、无预期假设和无溢出效应假设的重新表述。

•   平行趋势假设检验和动态模型构造(事件研究法设计)

•  平行趋势检验方法和敏感性分析

•  以个体出生年份(cohort)构成的DID,有时也称为cohort DID,并不是一种新的设计

案例:

茶叶价格和消失的女性(Qian, 2008)

土豆和人口及城市化(Nunn and Qian, 2011)


第10 讲 DID-IV设计

•   DID和IV的结合:不满足平行趋势时的新设计

•   基本识别条件、因果识别过程

•   三重差分法(DDD):一种特殊的工具变量法

•   基本识别条件、因果识别过程

案例:
印尼建校项目对教育回报的影响(Duflo, 2001)
强制福利对劳动力市场的影响(Gruber, 1994)


第11讲 交错DID(staggered DID)

个体是逐渐受到政策影响的,不再只有单纯的干预组和控制组两组,而是有很多的干预组和控制组,而干预组被干预的时点不同,用这样的数据估计政策影响时,早期文献仍然沿用第10讲多期单一政策时的设计方法,采用双向固定效应模型(TWFE)估计,但最新的文献发现,在交错政策时,如果存在组间异质性(Goodman-Bacon, 2021)和时间上异质性(Sun and Abraham, 2021)时,TWFE估计量存在着偏差,事件研究法存在着污染偏差(Contamination bias)。

•   基本识别条件的讨论

•   TWFE估计量在估计什么(Goodman-Bacon, 2021; de Chaisemartin and D'Haultfoeuille, 2020)

Ø  Goodman-Bacon分解

•   事件研究法存在的偏差(Sun and Abraham, 2021)

•   如果正确的估计因果效应:

Ø  Callaway and Santa’Anna(2021)非参数估计量

Ø  Wooldridge(2021)回归估计量

案例:
大而坏的银行:放松管制与收入分配(Beck et al., 2010; Baker et al., 2022)


第12讲 合成控制法

•   缺失值填补(Borusyak et al., 2021; Liu et al., 2021)

•   合成控制法(Abadie et al., 2010)

•   合成双重差分法(Arkhangelsky et al., 2021)

•   广义合成控制法(Xu, 2017)

案例:

加州控烟法案的效果(Abadie et al., 2010);

德国统一的经济影响(Abadie et al., 2015)


第13讲 断点回归设计

最接近于完全随机化实验的研究设计,教育学家发明(Thistlethwaite and Compbell, 1960),作者认为价值不大,但被经济学家挖掘出来,焕发异彩(Hahn et al. 2001)。本章讨论RDD、Fuzzy RDD、Kink RDD的基本识别条件、估计方法、带宽选择方法等。

•   精确断点回归设计:局部随机化假设、连续性假设

•   模糊断点回归设计:工具变量法

•   弯折断点回归设计:导数上的断点

案例:

美国政党的在位优势(Lee,2008)、

空气污染和寿命(Chen et al., 2013;Ebenstein et al., 2017)、

学区房的价值(Black, 1999)、

户口的价值(Chen et al., 2019)。


第14讲 因果中介分析

•   传统中介分析理论

•   自然间接效应(中介效应)、自然直接效应、控制直接效应

•   因果中介效应的基本识别条件:序贯可忽略性

•   工具变量因果中介模型

案例:

教育通过职业影响收入的因果中介分析



咨询报名

刘老师

电话:18600211279

WeChat:jg-xs12


往期学员反馈




以上图文为广告内容

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/170960
 
191 次点击