👇 连享会 · 推文导航 | www.lianxh.cn
🍓 课程推荐:连享会:结构模型·2025 现场班 嘉宾:谭用,南京财经大学 时间:2025 年 6 月 7-8 日 地点:天津大学 (卫津路校区西门) 咨询:王老师 18903405450(微信)
作者 :关欣 (南开大学)邮箱 :gx0222@126.com
编者按 :本文主要整理自知乎「机器学习在经济学领域是否有应用前景?」,特此致谢!
温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」 。或直接长按/扫描如下二维码,直达原文:
目录
1. 引言
2. 拓展数据可得性
3. 预测
4. 因果推断
5. 面临的问题
6. 总结
7. 参考文献
8. 相关推文
1. 引言 近年来,得益于大数据的产生和计算能力的爆炸式发展,机器学习发展迅猛,这使得经济学领域也开始关注其应用。根据王芳等 (2020) 的统计,五大经济学英文顶刊中涉及机器学习的文章数量,在 2014 年之后以每年 74.7% 的速度递增。斯坦福教授 Jonathan Levin 也表示,机器学习的强大之处在于拟合预测模型和处理高维度大数据。同样的,Athey (2018) 认为机器学习将改变经济学的研究方式。
基于此,我们整理了部分相关文献和知乎热议内容,以简要介绍机器学习在经济学领域中的应用前景,并希望对大家有所帮助。
2. 拓展数据可得性 在经济学研究中,尤其是实证研究中,数据是基础。机器学习能够通过文本挖掘和图像识别等方式获得数据,拓展了数据可得性。
基于机器学习技术,学者可使用 Latent Dirichlet Allocation (LDA) 方法对海量文本数据提取主题,利用朴素贝叶斯算法 (Naive Bayes) 对文本进行分类,以及通过自动非参数文本分析 (Automated Nonparametric Content Analysis) 和支持向量机 (Support Vector Machine) 来判断文本作者的身份等。除了对海量文本进行归类和比较外,机器学习技术还可以测量文字背后的情感。
机器学习技术可以对不同的像素和像素组合进行处理,进而从中提取出有经济意义的信息。然后再将这些信息与研究者感兴趣的变量特征匹配,从而构建出研究变量的替代变量 (黄乃静和于明哲,2018)。例如,使用卷积神经网络 (Convolutional Neural Networks,CNN) 来识别卫星图片中信息、识别人像的性别或对人像进行颜值打分等。
因此,机器学习一方面提高了数据搜集和整理的生产率——将以前需要通过大量人力和时间才能生成的变量,利用机器学习算法辅助生成;另一方面通过机器学习可以将图像与文本进行量化,拓宽了经济学研究的数据来源 (王芳等,2020)。
3. 预测 机器学习与计量经济学的区别:
统计学和计量经济学的分析主要是预测、总结、估计、假设检验,而机器学习主要关注预测; 机器学习专家通常主要关注开发高性能计算机系统,该系统可以在具有挑战性的计算约束情况下提供有用的预测;
数据科学既涉及预测和总结,也涉及数据操作、可视化等内容。 范里安认为,机器学习已深入到经济学研究中。传统的统计和计量方法,比如回归分析,当然是不错的研究方法。但如今符合研究要求的数据已然有限,同时大数据量让变量之间的关系变得更加灵活,传统计量中的线性和部分非线性模型可能都无法满足这一要求。范里安认为,机器学习理论中的决策树 (Decision Trees)、支持向量机 (Support Vector Machines)、深度学习 (deep lerning) 等技术,可以更加有效率的处理复杂的关系。(知乎用户:扣小米)
标准的计量经济模型有时也可以产生不错的预测,但它们更适合理解经济不同方面之间的因果关系。在预测方面,标准计量经济模型往往会 “过度拟合” 样本,有时无法很好地概括新的、看不见的数据。而机器学习模型可以通过权衡偏差和方差来最小化预测误差。
机器学习在计量经济学中的一大重要用途就是把预测的部分都改用机器学习来实现。例如估计 Propensity Score,以及估计工具变量的一阶段。因为这些环节不涉及因果性,只要预测准确就好,所以机器学习特别有优越性。现在比较热门的话题是用机器学习来估计潜在结果 Y(0),比如在实验里面通过哪些协变量来预测控制组的结果,Lasso 在这个环节就大显身手了。(知乎用户:王也)
4. 因果推断 Jonathan Levin 曾在 Quora 中回答了 “从短期 (2-5 年),以及更长远的角度来看,机器学习将如何影响经济学” 这一问题。
How will machine learning affect economics, in both the short term (2–5 years) and the long term?
One area that's going to get a lot of attention is combining machine learning with causal inference. A big fraction of empirical microeconomics is about finding ways to exploit natural experiments, whether by using instrumental variables, regression discontinuity, matching, difference-in-difference estimators, or other methods.
Large-scale data has great advantages in terms of finding natural experiments (to take a trivial example, if you want to measure how a July 15 price change affected sales, it’s much more powerful to have daily sales data than monthly sales data). But for the most part economists trying to estimate causal models on large-scale data are using traditional methods like fixed effects linear regression. Having some easy to use alternatives would probably make a significant difference in empirical research.
Jonathan Levin 认为,机器学习与因果推理相结合将是未来备受关注的领域。在实证微观经济学中,不管是 IV、RD、匹配、DID,还是其他方法,其中一大部分内容是寻找不同方法来利用自然实验。大规模数据在寻找自然实验方面具有很大的优势。不过大多数经济学家在使用大数据测量因果模型时,还在使用传统的方法,比如固定效应线性回归,拥有一些易于使用的替代方案可能会对实证研究产生重大影响。
社会科学特别是经济学实证研究的核心是因果识别,由于机器学习在预测方面具有较强优势,它可以被用来预测反事实进而获得因果效应。
所谓因果关系是指在所有其他变量 (如控制变量 ) 不变的条件下,改变一个变量 (如政策干预 ) 是否会导致另一个变量 (如经济结果 ) 的改变。如果有,则称存在从 到
的因果关系。在实验科学中,要识别因果关系或检验一个政策干预的效应,可以将实验主体随机分为两组:一组是实验组,接受实验干预;另一组是控制组,不接受实验干预,其他条件或变量则保持不变。干预效应是两组在同等条件下的结果之差。
洪永淼和汪寿阳 (2021) 指出,在计量经济学中,当评估政策效应时,由于经济系统的非实验性特点,往往无法进行控制实验,尤其是无法确保实验组与控制组满足 “同等条件” 假设。统计学和计量经济学关于政策评估的基本思想是,在同等条件下,比较实施了该政策的观测结果与假设没有实施该政策的虚拟事实。
在已实施某个政策的现实情况下假设这个政策没有实施,显然是一种虚拟假设,该虚拟假设下的经济结果常称为虚拟事实 (counterfactuals)。由于虚拟情况不会真正发生,故需要对虚拟事实进行估计,这实质上是一种预测。这可以借助一个统计模型来估计,也可以通过机器学习来预测。
鉴于机器学习精准的预测能力,机器学习有望精准估计虚拟事实,从而精确识别与测度经济因果关系。换句话说,虽然机器学习不能直接揭示因果关系,但它可以通过准确估计虚拟事实帮助精确识别与测度因果关系。同样的,黄乃静和于明哲 (2018) 认为,在经济学实证研究最为关心的因果推断问题上,机器学习又可以通过挑选重要的协变量来改善平均处理效应的估计结果、估计处理效应的异质性,同时在估计结构模型时发挥重要的作用。
王芳等 (2020) 认为,虽然利用机器学习的预测优势构建处理组的反事实在方法论上行得通,但目前并没有被研究者所广泛接受和使用。这主要因为经济学在识别因果上已经发展出非常成熟的范式。除非能够带来颠覆性的边际贡献,否则研究者没有理由抛弃传统因果识别方法。目前一个较为务实的做法是,将机器学习识别的因果相关证据作为稳健性检验。
5. 面临的问题 在现阶段,机器学习推动经济学发展的同时,还面临着一些问题:
机器学习模型的可解释性低 :在经济学领域模型的可解释化十分重要,而现阶段的大部分 ML 模型都面临解释性低的问题。仅当这个领域继续发展以后,我们才不仅仅把机器学习当做应用,而是探索理论发展的工具。
机器学习模型的定义难 :现阶段被商业化广泛应用的机器学习还是监督学习,而监督学习要求有明确的问题定义。现在看起来很有希望的强化学习,迁移学习等还并不能大规模普及应用。以简单的监督学习为例,建立模型预测企业并购是否影响公司股价,那么需要有大量并购数据,以及并购后股价变动情况。理想情况下,在收集足够多的并购消息和股价变动信息后,做自然语言分析提取特征放到机器学习模型即可。然而在实际情况中,我们无法给出明确的问题定义和边界。
如果想用 AI 来制定一个股票交易策略,那么需要考虑进去多少因素?仅考虑并购消息就够了么?越多的相关的因素越可以提高模型的拟合性和准确性。在这种情况下,每个问题都需要大量人和数据来支撑,这也是为什么大量用 Al 来预测股票走势的探索都无疾而终的原因。
数据的结构化程度差 :机器学习模需要结构化的数据,而金融领域的大数据化,甚至是数据结构化都还有很长的路的要走。
机器学习可能最终会拓展现有经济学乃至社会科学研究的边界。但是,研究者也应该对其带来的研究不可复制性、过分依赖大数据及可能加剧学界不平等问题保持清醒认识。(知乎匿名用户)
6. 总结 目前来看,机器学习被越来越多地应用到经济学研究当中,已经是不争的事实。现在如果不懂点编程、爬虫以及机器学习等技术,很难在经济学这个行当走的更远。关于机器学习的相关知识,可关注近期连享会课程「专题课:文本分析-爬虫-机器学习-2022年4月」。
7. 参考文献 黄乃静, 于明哲. 机器学习对经济学研究的影响研究进展[J]. 经济学动态, 2018(7):15. -Link- 洪永淼, 汪寿阳. 大数据、机器学习与统计学:挑战与机遇[J]. 计量经济学报, 2021, 1(01):17-35. -Link- 王芳, 王宣艺, 陈硕. 经济学研究中的机器学习:回顾与展望[J]. 数量经济技术经济研究, 2020, 37(04):146-164. -Link- Athey S. The impact of machine learning on economics. The Economics of Artificial Intelligence[J]. Agrawal. A, Gans, J. and Goldfarb, A, 2019. -PDF-
8. 相关推文 Note:产生如下推文列表的 Stata 命令为: lianxh 机器, m
安装最新版 lianxh
命令: ssc install lianxh, replace
Semantic scholar:一款基于机器学习的学术搜索引擎 Stata-Python交互-7:在Stata中实现机器学习-支持向量机 MLRtime:如何在 Stata 调用 R 的机器学习包?