社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

NEO发布第一位自主机器学习工程师,MLE-bench秒杀了OpenAI o1

夕小瑶科技说 • 5 月前 • 166 次点击  
夕小瑶科技说 原创
作者 | 海野

今天刚刷到一家初创AI公司——NEO AI,一出手就是王炸!

他们是这样介绍第一个项目的:首个自主机器学习AI工程师。

官方还晒出一波跑分:NEO在MLE基准测试上进行了全面评估。在50场Kaggle比赛的测试中,NEO在26%的比赛中赢得了奖牌,超过了搭配AIDE框架的OpenAI o1(16.9%)。

MLE-bench是OpenAI推出的新测试基准,由75个Kaggle机器学习工程任务构成,包括自然语言处理、计算机视觉、信号处理等一系列机器学习工程师日常使用的核心技能测试。获得奖牌的要求是:在所有参赛队伍中,得分占前10%。

作为一个机器学习工程师,工作主要包括几个环节:

  • 数据获取、清洗、处理加工
  • 模型选择、训练、验证
  • 部署监控

但纯人工解决起来费时费力费资源,而这就是NEO希望能解决的问题。

怎么解决?

NEO用多个智能体同时驱动多个专门模型,并且每个微调模型专门用于机器学习生命周期的不同部分。

这样一来,复杂的问题就可以分解为可管理的组件,现在只需要给定一个具体目标,NEO就能启动一个全面的工作流程来实现这个目标。

这个流程涉及规划、编码、执行和调试的连续循环——确保每个阶段的彻底细化。

  • 只需要和它chat,完成ML任务。完全用自然语言交互。

  • 规划能力:复杂任务拆解成多个子任务

  • 自动模型优化,Neo理解任务后会运行多个实验,自动评估它们相对于目标的性能,并选择最佳模型。

随着流程进展,NEO会不断进行调整和迭代,直到实现最佳结果。一旦开发人员批准NEO的输出,就能几秒钟内完成工作流程的部署。

也就是说,有了NEO之后,上述所有复杂环节全部实现了自动化。

如此,每一位ML工程师都可以借助AI让工作效率直接一飞冲天,可以更多着眼于创新的事情了,脏活累活都由AI来做。

NEO还贴上了两例实战demo:

  • 使用协同过滤构建一个书籍推荐模型:

这位大哥想用Goodreads ratings dataset来训练一个模型,给出指令后,NEO自动完成数据集的准备工作,并对数据预处理进行结构性优化。

在整个工作流中,不同的工作内容对应一个单独的智能体(图中的planner、analyzer等),不同的智能体驱动不同的模型进行各项工作内容同时进行。

  • 第二个demo同理,让NEO执行端到端模型构建和问题解决,提出一个构建信用卡欺诈检测系统的解决方案。

在此之前,专为ML设计的agent还有,比如专为Kaggle机器学习竞赛构建的框架AIDE。

AIDE是Weco AI公司专门为Kaggle竞赛设计的开源Agent框架,舍弃了一部分通用性,在ML方面进行了优化。在十月份OpenAI发布MLE-bench之后,这个竞赛专用的Agent框架也跟着火了一把。

OpenAI测试人员用GPT-4o模型分别在AIDE、MLAB、OpenHands框架上进行了MLE-bench测试,并对每个框架进行了微调。

其中GPT-4o+AIDE的组合表现最佳(8.7%的比赛获得了奖牌),远远超过了MLAB(0.8%)和OpenHands(4.4%)的成绩。而改用OpenAI o1-preview模型配合AIDE框架,则得出了16.9%的遥遥领先的成绩。

AIDE的出现,代表了一种新的尝试,结合代码逻辑和神经网络,专门针对ML进行优化,更适合处理专项专用的问题。在ML特化的Agent框架的基础上,基于前沿LLM的能力,让AI训练AI从设想变成了可能。

在AI公司竞相研究前沿LLM的现在,机器学习过程的自动化,或许能给整个AI市场带来一场重塑。

真的是ML模型在创造ML模型了!

不过NEO目前还在内测阶段,现在想使用得向官方发申请。

附上申请网址:https://heyneo.so/waitlist

拿到名额的小伙伴可以分享一下,用起来是不是真的这么SOTA~

参考资料

https://x.com/withneo/status/1857448521617592631?prefetchTimestamp=1731739972421
https://www.weco.ai/blog/technical-report 


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176088
 
166 次点击