邮箱: econometrics666@126.com 所有计量经济圈方法论 丛的code程序 , 宏微观 数据库和各种软
件都放在社群里.欢迎到计量经济圈社群交流访问. 关于下方文字内容,作者: 崔德群,山东大学经济学院,通信邮箱:dequn_cui@mail.sdu.edu.cn Barberá, P., Boydstun, A., Linn, S., McMahon, R., & Nagler, J. (2021). Automated Text Classification of News Articles: A Practical Guide. Political Analysis, 29(1), 19-42.
Automated text analysis methods have made possible the classification of large corpora of text by measures such as topic and tone. Here, we provide a guide to help researchers navigate the consequential decisions they need to make before any measure can be produced from the text. We consider, both theoretically and empirically, the effects of such choices using as a running example efforts to measure the tone of New York Times coverage of the economy. We show that two reasonable approaches to corpus selection yield radically different corpora and we advocate for the use of keyword searches rather than predefined subject categories provided by news archives. We demonstrate the of coding using article segments instead of sentences as units of analysis. We show that, given a fixed number of codings, it is better to increase the number of unique documents coded rather than the number of coders for each document. Finally, we find that supervised machine learning algorithms outperform dictionaries on a number of criteria. Overall, we intend this guide to serve as a reminder to analysts that thoughtfulness and human validation are key to text-as-data methods, particularly in an age when it is all too easy to computationally classify texts without attending to the methodological choices therein. 新闻文章的自动文本分类:实用指南
文本分析的自动化方法使人们能够通过主题和语气等维度对大规模的文本数据进行分类。本文旨在为研究人员提供一个指南,帮助他们在从文本中提取度量指标之前做出合理的决策。以《纽约时报》对经济报道的基调为例,文章从理论和实证两方面探讨了这些决策的影响。本文展示了如何用两种不同但合理的语料库选择方法得到截然不同的语料库,并建议使用关键词搜索而不是新闻档案中预设的主题类别。文章演示了为什么使用文章片段而不是句子作为分析单位更有利于编码。文章说明,在给定固定数量的编码情况下,最好增加被编码文档的数量而不是每个文档的编码器数量。最后,文章发现在多个标准上,有监督机器学习算法都优于词典法。总之,本指南旨在提醒分析人员,在一个可以轻易地对文本进行计算分类而不考虑其中的方法选择的时代,“文本即数据”的方法需要思考和人工验证作为关键步骤。 一、引言 自动文本分类方法与数字文本档案的广泛范围相结合,导致文本分析的程度和范围爆炸式增长。字典和监督机器学习(SML)工具使分析文本的时间和成本急剧下降。但是,使用自动化的文本分析方法要求分析师做出多个决策,这些决策很少被考虑,但会产生既不明显也非良性的结果。 在对文档进行分类之前,分析人员必须:(1)选择一个语料库;(2)选择是使用字典方法还是使用机器学习方法(SML)对每个文档进行分类;如果选择了SML方法,分析人员还需要(3)决定如何生成训练数据集——选择分析单元、要编码的对象(即文档或文本单位)的数量,以及要分配给每个对象的编码器的数量 ①关键词优于主题类别——使用关键词搜索比使用预定义的主题类别(由LexisNexis开发)产生更大的语料库,相关文章的比例更高; ③最大化编码的对象的数量,而不是每个对象使用更多编码器,提供了最有效的方法来优化SML的性能; ④SML在准度和精度等许多方面优于字典方法,如果分析人员能够生成高质量/数量的训练数据集,应首选SML。 二、选择语料库:关键字 vs. 主题类别 定义文本的宇宙,或来源;
定义与分析相关的宇宙中的总体、对象集(例如,文章、账单、推文)
选择用于定义语料库的文档集
面临的挑战:采用一种抽样策略来产生一个模仿总体的语料库 总而言之,分析师应该努力最大化关键字搜索相对于感兴趣总体的相关性和代表性。 更有可能捕捉相关文档,并省略不相关的文档,因为人亲自参与了主题类别的创建。
如果人们将文本与其生产同步进行分类,那么类别标签也可能解释特定时间的词汇区别。
如果主题类别依赖于人类编码员,编码员变更可能会导致内容独立于实际内容的变化,而这对分析师来说是不可见的。
将个别对象分配给档案(甚至是原始新闻来源)提供的主题类别的方法是专有的——缺乏透明度,作为一个直接的结果,无论是跨出版物还是跨国家,搜索都不可能在其他环境中复制。
存储服务器所使用的分类规则可能会随时间而改变
分析师可以控制搜索的广度。
搜索在其他领域的文件中是可复制的
相关术语可能会随着时间的推移而变化,其他出版物可以使用被忽视的同义词,等等
本文中,我们比较了使用这两种策略从我们预定义的宇宙中生成报纸文章语料库的结果(纽约时报),旨在衡量美国国民经济的新闻报道的基调。比较内容包括两个语料库的相对大小,它们的重叠部分,相关文章的比例,以及每个文章产生的基调的结果 就业、失业、通货膨胀、消费者价格指数、GDP、国内生产总值、利率、家庭收入、人均收入、股票市场、联邦储备委员会、消费者情绪、衰退、经济危机、经济复苏、全球化、外包、贸易赤字,消费者支出,充分就业,平均工资,联邦赤字,预算赤字,天然气价格,天然气价格,通货紧缩,现有房屋销售、新房销售、生产率、零售贸易、批发价格和美国 结果显示,关键字搜索产生的语料库包含的文章数量几乎是主题类别语料库的两倍 (30,787 vs. 18,895)
图1中最上面的曲线代表主题类别独有的文章数量,最下方的折线代表关键词检索独有的文章数量,中间曲线是两者重合的文章数量。由图1可得: 这个系列不仅相关性很强,而且每个语料库中的峰值也对应于经济危机时期
主题类别语料库根本不是关键字语料库的子集,两种策略生成的语料库有很少的重叠部分:关键词语料库中只有13.9%的文章包含在主题类别语料库中,而主题类别语料库中只有22.7%的文章包含在关键词语料库中。
总的来说,这两种搜索策略产生的样本都包含了大量不相关文章的比例,这表明搜索太宽泛。 如表1所示,在同时出现在主题类别和关键字语料库中的文章中,相关文章的比例最高,为0.44。关键词语料库编码的文章为相关的比例几乎相同(0.42),而相关主题类别语料库编码的相关文章比例只有0.37 因为我们想估计总体值,所以在其他条件都相等的情况下,我们更偏好大的样本而不是小的样本。在这个例子中,关键字数据集平均每月会给我们34篇相关的文章来估计基调,而相比之下,主题类别数据集只有有19篇。此外,关键词数据集并没有以更高的噪声为代价提供更多的观察结果:关键词语料库中无关文章的比例低于无关文章在主题类别语料库中的比例。 关键字搜索在分析人员的控制范围内,具有透明性、可重复性和可移植性。而主题类别搜索则不是。因此,我们建议分析师使用关键字搜索,而不是主题类别。
三、创建一个训练数据集:两个关键的决定 一旦分析人员选择了一个语料库,就有两个基本的编码基调的选项:字典方法和SML方法。在比较这些方法之前,我们考虑分析人员应用SML的必要步骤:生成训练数据集。 3.1选择一个分析单位:片段 vs. 句子 我们开发一个训练数据集的目的是获得要分配给文本中每个特征的权重的估计值,以预测一篇文章的基调,因为人们所解读的文章基调并不是所有句子基调的简单相加。本文不直接比较句子层面和文章层面,而是比较句子和段落层面的编码,用文文章前五的句子作为该文章的片段。尽管我们定义的一个片段不像一篇文章那么长,但它保留了我们感兴趣的关键,即它包含多个句子。 首先计算在一篇文章被所有三个编码器一致编码为相关的情况下,被编码为相关和不相关的句子的平均数量。我们发现,平均而言,稍微多一点的句子被编码为无关(2.64),而不是相关(2.33)。接下来,我们检查了1789个片段的子集中的正片段和负片段中的正句和负句的平均数量,这1789个片段都被至少一个编码器认为是相关。结果发现,在所有编码器认为是正的片段中,平均不到一个句子(0.91)被所有编码器认为是正,而只有不到三分之一的句子被所有编码器认为是负基调(0.27)。在编码为负的片段中,平均包含一个(1.00)个负基调句子,基本上不包含正基调句子(0.08)。 最后,为了评估在每个分析单元上训练的分类器的性能,我们产生了两个分类器:一个在句子层面编码基调,另一个在片段层面的编码基调。我们使用CF Truth数据集(其中精度是在片段层面上测量的)来比较样本外精度,发现句子和片段水平上的样本外准确性得分分别为0.700和0.693。说明在句子层面上,通过将更大的单位分解成句子和其造成的额外费用和处理负担,几乎没有什么好处。
3.2分配总编码:更多的文档vs. 更多的编码器 考虑到可能存在的预算约束,我们将需要在每个对象有更多的编码器和更多的编码对象之间做出权衡。换句话说,是要用一个更大的文档集,一个编码器编码一个文档,还是用更小的文档集但一个文档由多个编码器编码。 如果这个问题是根据观测值和聚类的水平来确定的,那么答案是很明显的。如果我们有多个编码器编码同一个文档,那么尽管我们对它有多个度量,我们也只观察到文档的特性和真实结果之间的关系的一个实例,因此估计分类器的权重将不那么精确。多一个编码器编码文档不能提供更多的信息,也不能改进对文档特性和结果之间关系的估计。然而,编码一个额外的文档提供了一个新的数据点,增加了我们的样本量,从而增加了我们的统计能力。直观地说,与更多的编码器相比,更多的文档的好处将随着编码器精度的提高而增加。
图2展示了给定总编码和每个文档编码器数量的平均精确度。如第一列表示的是给定编码器240的情况下,每个文档由1个编码器(从而有240个文档被编码),2个编码器(120个文档),3个编码器(80个文档)和4个编码器(60个文档)编码的精度,发现对于任何给定数量的总编码,每个文档由较少编码器编码(较多文档总数)的预测精度总是较高的。 这些模拟表明,寻求优化任何固定数量的编码总数的预测精度的分析师应该最大限度地增加编码的特定文档的数量。
四、选择分类方法:监督机器学习(SML)与字典 字典:字典是一组用户识别的与编码任务相关的特征或术语,其中每个特征被分配一个权重,反映用户对要产生的度量的贡献,通常+1为正特征,-1为负特征。 字典按顺序尺度编码文档,也就是说,它们将文档按照正或负的程度进行排序。如果分析师想知道哪些文章是积极的还是消极的,他们需要确定一个切点(零点)。 SML:选择SML的分析师遵循三个主要步骤。首先,由人对语料库的一个样本(训练数据集)进行编码(分类)。然后选择一种分类方法(机器学习算法),并训练该分类器来预测训练数据集中的编码器所分配的标签。通过这种方式,分类器“学习”数据集的相关特征,以及这些特征如何与标签相关。通常采用多种分类方法,并测试最低水平的准确性,使用交叉验证,以确定最佳分类器。最后,将所选的分类器应用于整个语料库,以预测所有未分类的文章(那些未被人标记的文章)的基调。 4.1分类方法的比较 比较这两种方法的第一步是识别要比较的字典和SML分类器 SML:使用《纽约时报》从1947-2014年随机抽样的4400篇特定文章生成的数据集来训练SML分类器。 4.1.1准度和精度 图3显示了字典和SML方法的准度(左)和相对精度(右),虚线是在情态范畴中文章的百分比(准度:正确分类的百分比 精度:正确的正面预测的百分比)
图3显示,只有SML优于情态范畴的简单猜测。SML分类器在71.0%的编码文章中正确预测了人类工作者的编码。相比之下,SentiStrength正确预测了60.5%,Lexicoder 58.6%,霍Hopkins 21词法56.9%。 SML分类器的相对性能在精度方面更为明显。来自SML模型的正基调预测在71.3%的时间内是正确的,而对于SentiStrength,37.5%是正确的,Lexicoder 和 Hopkins 21字方法分别在45.7%和38.5%的时间内是正确的。总而言之,每个字典的准度和精度都不如SML模型。 训练数据集的大小在解释SML分类器的更好的准度和精度方面的作用是什么? 我们从完整的CF Truth训练数据集中随机抽取了10个250篇文章的样本。用同样的方法估计SML准度和精度。随后每次增加250样本量重复此过程,直至样本量为8750。 图4给出了准度的结果,阴影区域表示95%的置信区间。x轴给出了训练数据集的大小,y轴报告了给定样本大小下CF Truth的平均精度。使用最小的训练数据集(250),SML分类器的准度等于情态范畴中文章的百分比(约63%)。此外,随着训练数据集大小的增加,准度会迅速提高。当有2000观测值时,SML是相当准确的,当训练数据集超过3000篇文章时,增加样本量对准度的贡献不大。
比较SML与字典分类器的另一种方法是使用接收机操作员特性,即ROC曲线。ROC曲线显示了每个分类器在任何给定的分类阈值下,正确预测CF Truth中一篇文章的语气是否为正的能力。
图5显示了SML分类器和Lexicoder字典的ROC曲线。x轴给出假正基调率——CF Truth中负基调文章被错误归为正基调的比例,y轴给出真正基调率——CF Truth中正基调文章被正确归为正基调的比例。曲线上的每个点代表给定分类阈值的误分类率。
首先,对于几乎任何分类阈值,SML分类器给出了比字典分类器更高的真正基调率
ROC曲线下面积(AUC)越大,分类器的性能越好
这一发现证实了SML分类器能更好的区分更积极和更不积极的文章 4.1.2区分的能力 关注预测准度的一个潜在缺点是,即使SML更擅长区分消极文章和积极文章,字典也许更擅长捕捉基调的潜在值的梯度,从非常消极到非常积极。为了检验每种方法测量相对基调的效果,我们根据(1)Lerixicoder分配的基调得分和(2)根据SML分类器分配的预测概率将CF Truth样本分成十分位数集,而不是在整篇文章层面上报告准度。然后,我们测量了在每个十分位数中被归类为正基调的文章的比例。
如图6所示,SML分类器显示出更强的区分能力,可以区分大多数文章的基调,在最高的十分位数集中,文章有超过75%预测概率为正基调,正如在CF Truth中被标记的那样。简而言之,即使涉及到文章的相对排名,词典的表现依旧不如SML,它不能准确地区分更弱的负基调和更强的负基调的文章。 4.2选择分类方法:根据证据得出结论
本文讨论了文本基调分析领域的分析师所面临的几个决策,发现像如何选择文本语料库进行分析这样简单的事情,也可能会对测量结果产生巨大的影响。 这些具体的建议归根到底总结为两点:(1)使用透明和可重复的方法来选择语料库,(2)用机器分类,但人工进行验证。 本文也提醒我们。首先,对于使用文本作为数据的分析师来说,每个结点都有决策,即使是我们认为是良性的决策,也可能会显著的下游后果。其次,每个研究问题都是独一无二的。分析师应该自己进行测试,以确定他们所做的决定如何影响他们结论,并在过程的各个阶段保持谨慎和透明。 关于机器学习,参看: 1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码)
,2.机器学习对经济学研究的影响研究进展综述 ,3.回顾与展望经济学研究中的机器学习 ,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险! 6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了! 7.前沿: 机器学习在金融和能源经济领域的应用分类总结 ,8.机器学习方法出现在AER, JPE, QJE等顶刊上了! 9.机器学习第一书, 数据挖掘, 推理和预测 ,10.从线性回归到机器学习, 一张图帮你文献综述 ,11.11种与机器学习相关的多元变量分析方法汇总 ,12.机器学习和大数据计量经济学, 你必须阅读一下这篇 ,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典 ,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断 ,15.R语言函数最全总结, 机器学习从这里出发 ,16.机器学习在微观计量的应用最新趋势: 回归模型 ,17.机器学习对计量经济学的影响, AEA年会独家报道 ,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现) ,19.关于机器学习的领悟与反思 ,
20.机器学习,可异于数理统计 ,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术!
23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣! 24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文! 25.更精确的因果效应识别: 基于机器学习的视角 ,26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法 ,27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法! 28.机器学习和经济学, 技术革命正在改变经济社会和学术研究 ,29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇” ,30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了! 31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容! 32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子? 33.机器学习已经用于微观数据调查和构建指标了, 比较前沿! 34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法! 35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?
关于金融学研究,参看 :1.2022年诺贝尔经济学奖: 表彰Bernanke, Diamond和Dybvig对银行和金融危机的研究贡献 ,2.基于文本大数据分析的会计和金融研究综述, 附24篇相关讲解文章! 3.一篇说“可能重新改写经济学基本公式和金融数学推算”的投稿 ,4.中文顶刊上关于零工经济的研究, 思路和方法借鉴的是这篇金融TOP刊文章? 5.从耶鲁到香港, 从金融到历史后, 陈志武教授第一篇TOP刊文章是OLS+IV组合! 6.TOP5刊, 我国政府为什么对金融市场进行定期和密集的干预? 7.中国数字普惠金融的测度及其影响研究: 一个文献综述
,8.Top金融,经济与会计期刊中的文本分析, 一项长达2万字的综述性调查 ,9.经济金融学研究中的大数据革命, 将来的实证研究该何去何从? 10.合作者把代码弄丢了! 只能撤稿! 发表在最TOP金融期刊上, 但用代码复制不出结果! 11.金融, 管理和会计, 中国人在哪个领域做得最好呢?基于TOP国际期刊的发现 ,12.前沿: 大数据对经济金融研究的致命影响, 那又该如何推动这些领域的前沿研究呢? 13.华人金融学术女神为运用工具变量估计方法做因果推断的学者提供了如下宝贵建议! 14.推荐"数字普惠金融指数", 省市县三级面板数据可做很多实证研究 ,15.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 16.金融学文本大数据挖掘方法与研究进展, 金融学者看过来! 17.权威前沿: 大数据时代经济学和金融学中的预测方法和实践, 不看就不要提前沿! 18.诺奖得主五因子定价模型的国际检验, 做金融的得学起来了! 19.神器! 统计和金融计算器, 词云和情感分析器强大到无敌! 20.最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注! 21.前沿: 机器学习在金融和能源经济领域的应用分类总结 ,22.疫情期Wind资讯金融终端操作指南 ,23.疫情期间CSMAR数据库使用指南!金融财务管理必备数据库! 24.金融领域三大中文数据库, CSMAR, CCER, Wind和CNRDS ,25.Luigi Zingales: 金融有益于社会吗? 26.经济金融领域第一位华人当选美国艺术与科学学院院士 ,27.时间序列数据分析的思维导图一览, 金融经济学者必备工具 ,28.研究创意的来源在哪里?顶级国际金融期刊主编如是说
,29.金融人如何用好统计分析学, 金融视角下的统计分析 ,30.金融计量模型:误差修正模型(Error Correction Model,ECM)
推荐一份超级大礼包资源, 里面有丰富的Stata学习材料, 写文章作报告找工作的指南 ,①134篇各种方法的code, 代码和程序文章合集, 必须收藏! ②今年最诚意的主流计量方法与Stata操作的视频教程, 一定要收藏学习! ③《经济研究》期刊上所有文章按照"计量方法"进行分类汇总,有选择性地学习计量方法 ,④120篇DID双重差分方法的文章合集, 包括代码,程序及解读, 建议收藏! ⑤Stata数据管理,绘图,检验,实证方法操作,结果输出的187篇文章! ⑥CFPS 2020, CHFS 2019数据都公布了! 最新数据用起来做研究! 下面这些短链接文章属 于合集,可以收藏起来阅读,不然以后都找不到了。
4年,计量经济圈近1500篇不重类计量文章,
可直接在公众号菜单栏搜索任何计量相关问题 ,
Econometrics Circle
计量经济圈组织了一个计量社群,有如下特征: 热情互助最多 、 前沿趋势最多 、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。