凡是搞计量经济的，都关注这个号了

稿件：econometrics666@126.com

所有计量经济圈方法论丛的code程序 , 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

2021年三位诺奖得主在获得诺奖后首次见面

前面引荐过两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法！而最近又看到“Michael C Knaus, Double machine learning based program evaluation under unconfoundedness, The Econometrics Journal, 2022;, utac015”在计量社群传阅得比较多。从中了解到，双重机器学习方法相对于传统的倾向匹配、双重差分、断点回归等因果推断方法，有非常多的优点，包括但不限于适用于高维数据（传统的计量方法在解释变量很多的情况下不便使用），且不需要预设协变量的函数形式。今天，我们通过社群里分享的相关文章和资料对双重机器学习进行简要介绍，包括如何使用软件对该方法进行实现。

而在Knaus(2022)之前，Chernozhukov et al. (2018) 已经将双重机器学习方法应用在了平均处理效应（Average Treatment Effects）、局部处理效应（Local Average Treatment Effects）和部分线性IV模型（Partially Linear IV Models）等中。他们通过三个案例，包括失业保险对失业持续时间的影响、401(k)养老金参与资格对于净金融资产的影响、制度对经济增长的长期影响，拓展了双重机器学习在政策评估中的应用场景。

Victor Chernozhukov, Denis Chetverikov, Mert Demirer, Esther Duflo, Christian Hansen, Whitney Newey, James Robins, Double/debiased machine learning for treatment and structural parameters, The Econometrics Journal, Volume 21, Issue 1, 1 February 2018, Pages C1–C68,

注：下面的①和②的参考资料都在文后的reference里

①

因果推断会遇到混淆变量的问题，比如想要去分析直播推荐多样性对用户活跃度的影响，但是这些都和用户历史相关。传统计量经济学方法可以解决这个问题，但是依赖很多强假设，强假设下，得到的估计不一定合理，双重机器学习为这个问题提供了解决的思路。

双重机器学习假设所有混淆变量都可以被观测，其正则化过程能够达到高维变量选择的目的，与Frisch-Waugh-Lovell定理相似，模型通过正交化解决正则化带来的偏差。除了上面所描述的，还有一些问题待解决，比如在ML模型下存在偏差和估计有效性的问题，这个时候可以通过Sample Splitting 和 Cross Fitting的方式来解决，具体做法是我们把数据分成一个训练集和估计集，在训练集上我们分别使用机器学习来拟合影响，在估计集上我们根据拟合得到的函数来做残差的估计，通过这种方法，可以对偏差进行修正。在偏差修正的基础上，我们可以对整个估计方法去构造一个moment condition，得到置信区间的推断，从而得到一个有良好统计的估计。

②

从非实验数据中考察变量之间的因果关系是社会科学研究的主要目标之一。然而，相关计量方法，如倾向匹配、双重差分、断点回归等，都有依赖严格的前提条件，从而对实证应用造成了诸多限制。在非常宽松的假设条件下，Chernozhukov等（2018）提出了双重机器学习（Double machine learning）方法来估计处理效应。与传统模型相比，双重机器学习方法适用于高维数据，且不需要预设协变量的函数形式。因此，基于双重机器学习的因果效应估计能弥补传统方法的缺点，在处理经济变量之间的非线性关系上具有极大优势。