NEO发布第一位自主机器学习工程师，MLE-bench秒杀了OpenAI o1

夕小瑶科技说原创
作者 | 海野

今天刚刷到一家初创AI公司——NEO AI，一出手就是王炸！

他们是这样介绍第一个项目的：首个自主机器学习AI工程师。

官方还晒出一波跑分：NEO在MLE基准测试上进行了全面评估。在50场Kaggle比赛的测试中，NEO在26%的比赛中赢得了奖牌，超过了搭配AIDE框架的OpenAI o1（16.9%）。

MLE-bench是OpenAI推出的新测试基准，由75个Kaggle机器学习工程任务构成，包括自然语言处理、计算机视觉、信号处理等一系列机器学习工程师日常使用的核心技能测试。获得奖牌的要求是：在所有参赛队伍中，得分占前10%。 ）

作为一个机器学习工程师，工作主要包括几个环节：

但纯人工解决起来费时费力费资源，而这就是NEO希望能解决的问题。

怎么解决？

NEO用多个智能体同时驱动多个专门模型，并且每个微调模型专门用于机器学习生命周期的不同部分。

这样一来，复杂的问题就可以分解为可管理的组件，现在只需要给定一个具体目标，NEO就能启动一个全面的工作流程来实现这个目标。

这个流程涉及规划、编码、执行和调试的连续循环——确保每个阶段的彻底细化。

随着流程进展，NEO会不断进行调整和迭代，直到实现最佳结果。一旦开发人员批准NEO的输出，就能几秒钟内完成工作流程的部署。

也就是说，有了NEO之后，上述所有复杂环节全部实现了自动化。

如此，每一位ML工程师都可以借助AI让工作效率直接一飞冲天，可以更多着眼于创新的事情了，脏活累活都由AI来做。

NEO还贴上了两例实战demo：

这位大哥想用Goodreads ratings dataset来训练一个模型，给出指令后，NEO自动完成数据集的准备工作，并对数据预处理进行结构性优化。

在整个工作流中，不同的工作内容对应一个单独的智能体（图中的planner、analyzer等），不同的智能体驱动不同的模型进行各项工作内容同时进行。

在此之前，专为ML设计的agent还有，比如专为Kaggle机器学习竞赛构建的框架AIDE。

AIDE是Weco AI公司专门为Kaggle竞赛设计的开源Agent框架，舍弃了一部分通用性，在ML方面进行了优化。在十月份OpenAI发布MLE-bench之后，这个竞赛专用的Agent框架也跟着火了一把。

OpenAI测试人员用GPT-4o模型分别在AIDE、MLAB、OpenHands框架上进行了MLE-bench测试，并对每个框架进行了微调。

其中GPT-4o+AIDE的组合表现最佳(8.7%的比赛获得了奖牌)，远远超过了MLAB(0.8%)和OpenHands(4.4%)的成绩。而改用OpenAI o1-preview模型配合AIDE框架，则得出了16.9%的遥遥领先的成绩。

AIDE的出现，代表了一种新的尝试，结合代码逻辑和神经网络，专门针对ML进行优化，更适合处理专项专用的问题。在ML特化的Agent框架的基础上，基于前沿LLM的能力，让AI训练AI从设想变成了可能。

在AI公司竞相研究前沿LLM的现在，机器学习过程的自动化，或许能给整个AI市场带来一场重塑。

真的是ML模型在创造ML模型了！

不过NEO目前还在内测阶段，现在想使用得向官方发申请。

附上申请网址：https://heyneo.so/waitlist

拿到名额的小伙伴可以分享一下，用起来是不是真的这么SOTA~

https://x.com/withneo/status/1857448521617592631?prefetchTimestamp=1731739972421
https://www.weco.ai/blog/technical-report