社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

推荐! codecon:为经济学研究者设计的机器学习魔术包, 经济学家有救了!

计量经济圈 • 3 周前 • 52 次点击  

凡是搞计量经济的,都关注这个号了

邮箱:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

在这篇文章发布后,群友推荐了另一个经济研究机器学习包codecon。说是,具有完整的指导,一行命令实现大部分nlp任务,对其帮助很大。

这个codecon宗旨挺有意思,用开源的方式帮助经济学研究者轻松实践机器学习方法,推动AI for Economics 。

特点也非常符合AI for Economists,包括1.低代码:尽可能减少代码量与计算机知识要求,根据需求自动挑选模型、配置最优参数;2.为经济学而生:参考经济学最新研究成果,设计符合经济学研究需要的功能 ;3.清晰指南:从python安装,服务器租借与使用,到算法深度介绍;4.持续更新: codecon将追踪产业界、学术界最新动态持续更新。

这个确实是比较跟踪学术界最新动态,比如前面刚刚哈佛大学在JEL发表了Deep learning for economists (机器学习刚得诺奖, AEA迅速发了篇经济学家如何利用深度机器学习技术的综述!),在其最新version里就推出了经济学研究的文本分类任务实践流程。

关于机器学习:1.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码),2.机器学习对经济学研究的影响研究进展综述,3.回顾与展望经济学研究中的机器学习,4.最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 5.Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!6.Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7.前沿: 机器学习在金融和能源经济领域的应用分类总结,8.机器学习方法出现在AER, JPE, QJE等顶刊上了!9.机器学习第一书, 数据挖掘, 推理和预测,10.从线性回归到机器学习, 一张图帮你文献综述,11.11种与机器学习相关的多元变量分析方法汇总,12.机器学习和大数据计量经济学, 你必须阅读一下这篇,13.机器学习与Econometrics的书籍推荐, 值得拥有的经典,14.机器学习在微观计量的应用最新趋势: 大数据和因果推断,15.R语言函数最全总结, 机器学习从这里出发,16.机器学习在微观计量的应用最新趋势: 回归模型,17.机器学习对计量经济学的影响, AEA年会独家报道,18.回归、分类与聚类:三大方向剖解机器学习算法的优缺点(附Python和R实现),19.关于机器学习的领悟与反思,20.机器学习,可异于数理统计,21.前沿: 比特币, 多少罪恶假汝之手? 机器学习测算加密货币资助的非法活动金额! 22.利用机器学习进行实证资产定价, 金融投资的前沿科学技术! 23.全面比较和概述运用机器学习模型进行时间序列预测的方法优劣!24.用合成控制法, 机器学习和面板数据模型开展政策评估的论文!25. 更精确的因果效应识别: 基于机器学习的视角,26.一本最新因果推断书籍, 包括了机器学习因果推断方法, 学习主流和前沿方法,27.如何用机器学习在中国股市赚钱呢? 顶刊文章告诉你方法!28.机器学习和经济学, 技术革命正在改变经济社会和学术研究,29.世界计量经济学院士新作“大数据和机器学习对计量建模与统计推断的挑战与机遇”,30.机器学习已经与政策评估方法, 例如事件研究法结合起来识别政策因果效应了!31.重磅! 汉森教授又修订了风靡世界的“计量经济学”教材, 为博士生们增加了DID, RDD, 机器学习等全新内容!32.几张有趣的图片, 各种类型的经济学, 机器学习, 科学论文像什么样子?33.机器学习已经用于微观数据调查和构建指标了, 比较前沿!34.两诺奖得主谈计量经济学发展进化, 机器学习的影响, 如何合作推动新想法!35.前沿, 双重机器学习方法DML用于因果推断, 实现它的code是什么?

具体如下,可以看看:

codecon v1.1 特点(26 Oct 2024)

经济学研究中大多数与文本分析相关任务都属于归类(Classification)问题。例如,情感分析(正向情感VS负向情感)、前瞻性分析(前瞻VS非前瞻)、是否与数字化转型相关(与数字化转型有关VS与数字化转型无关)。

Prof. Melissa Dell(2024) 提供了一个非常实用的经济学研究的文本分类任务实践流程,本次更新对该流程进行了完整实现与补充。

简要来说,这张图重点讲了两个事情:

第一,文本分类的机器学习实现主要有两个途径

  • 有监督学习:标注少量数据后训练基于深度学习的文本分类器
  • 生成式AI标注:使用生成式AI,调整提示词,直接对文本进行标注
第二,在使用有监督学习方法之前,可以借助词向量(Embeddings)辅助启发、扩充标签
  • 标签启发:使用词向量对文本进行聚类,启发标签
  • 训练集扩充:通过计算词向量之间的相似度(语意相似度)辅助拓展训练集
本次更新提供实现这两种功能的魔法命令
  • 四行命令实现BERT文本分类器训练全流程(标签启发,训练集扩充、模型训练、模型预测)
  • 批量调取生成式AI API接口进行文本分类
经济学家非常喜欢 Prof. Melissa Dell 的工作,严谨、实用、有深度。
上手也非常容易,只要跟着它的指南手把手安装和使用就行。

安装

强烈建议新建一个虚拟环境以运行codecon库。如果你很熟悉虚拟环境或租借服务器的步骤,可以直接跳过;如果你是初学者,请一定仔细阅读以下使用-环境配置的说明后后再进行安装。

pip install codecon --upgrade -i https://pypi.org/simple

如果安装过于缓慢,可以打开全局梯子后重新pip,或者尝试

pip install codecon --upgrade -i https://pypi.tuna.tsinghua.edu.cn/simple

或者通过github clone此项目

git clone https://github.com/mickwzh/codecon.git

为了方便大家实践codecon, 准备了一个关于情感分类(二分类)的数据集供大家下载

百度网盘: https://pan.baidu.com/s/1dIrQQnOl6spZv6Jet48eQA?pwd=dvqm 

提取码: dvqm

使用

环境配置

所谓环境,是指一套符合当前所需功能的工具包。python的方便之处在于有大量封装好的工具包;但这些工具包往往依赖于其他的工具包。
  • 假设A和B两个python库分别使用的是C1C2,
  • C1C2C的两个不同版本,一个环境里通常只能安装一个C
  • 使用A必须使用C1,使用B必须使用C2
  • 所以如果先安装了A,就会导致安装B出错 (C的版本不兼容); 反之亦然。
如果你通过pip的方式安装codecon,其会自动配置好实现codecon的环境,但前提是你的旧环境中没有与codecon所依赖的工具包相冲突的工具包。
因此,建议在安装codecon前配置一个新环境。
这里提供了适合初学者上手的两种(无代码)创建新环境的方案:ANACONDA&Spyder(本地运行) 和 Featurize&JupyterNote(在线运行) 。点击可获取相应pdf版指南。

关于具体使用等,可以具体看看它所在界面:

关于Melissa Dell,1.2020年小诺奖得主Dell关于如何做研究, 对年轻经济学家的建议!3.Mita, 2020小诺奖RDD女王最具影响力的成名作, 附数据和计量程序,4.“RDD女王”获2020年小诺奖!她的RD数据, 程序, GIS和博士论文可下载!关于她学术研究过程的最全采访!,5.世界计量经济学会宣布2020年新当选院士和新主席, 国人当选情况在情理之中但意料之外!6.AER上用断点回归设计RDD的实证文章有哪些?含程序和code, 不看至少需要收藏一下!7.如何做量化研究的文献评述, 基于政权变更, 集体行动和经济发展,8.TOP5的JPE新任主编和编辑介绍, 提前了解其研究方法和擅长领域! 9.TOP5上天才般神作, 没有足够的洞察, 很难想出这样的实证策略10.她极度近视, 却凭该TOP5文掌控着关于殖民制度长期影响研究的话语权!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

8年,计量经济圈近2500篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光  官员方言  | 微观数据 | 内部数据
计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL |  中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID
数据处理Stata  | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |
干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 |  计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验
计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177732
 
52 次点击