夕小瑶科技说 原创
作者 | 海野今天刚刷到一家初创AI公司——NEO AI,一出手就是王炸!
他们是这样介绍第一个项目的:首个自主机器学习AI工程师。

官方还晒出一波跑分:NEO在MLE基准测试上进行了全面评估。在50场Kaggle比赛的测试中,NEO在26%的比赛中赢得了奖牌,超过了搭配AIDE框架的OpenAI o1(16.9%)。

MLE-bench是OpenAI推出的新测试基准,由75个Kaggle机器学习工程任务构成,包括自然语言处理、计算机视觉、信号处理等一系列机器学习工程师日常使用的核心技能测试。获得奖牌的要求是:在所有参赛队伍中,得分占前10%。 )
作为一个机器学习工程师,工作主要包括几个环节:
但纯人工解决起来费时费力费资源,而这就是NEO希望能解决的问题。
怎么解决?
NEO用多个智能体同时驱动多个专门模型,并且每个微调模型专门用于机器学习生命周期的不同部分。
这样一来,复杂的问题就可以分解为可管理的组件,现在只需要给定一个具体目标,NEO就能启动一个全面的工作流程来实现这个目标。
这个流程涉及规划、编码、执行和调试的连续循环——确保每个阶段的彻底细化。
只需要和它chat,完成ML任务。完全用自然语言交互。
规划能力:复杂任务拆解成多个子任务
自动模型优化,Neo理解任务后会运行多个实验,自动评估它们相对于目标的性能,并选择最佳模型。
随着流程进展,NEO会不断进行调整和迭代,直到实现最佳结果。一旦开发人员批准NEO的输出,就能几秒钟内完成工作流程的部署。
也就是说,有了NEO之后,上述所有复杂环节全部实现了自动化。
如此,每一位ML工程师都可以借助AI让工作效率直接一飞冲天,可以更多着眼于创新的事情了,脏活累活都由AI来做。
NEO还贴上了两例实战demo:

这位大哥想用Goodreads ratings dataset来训练一个模型,给出指令后,NEO自动完成数据集的准备工作,并对数据预处理进行结构性优化。

在整个工作流中,不同的工作内容对应一个单独的智能体(图中的planner、analyzer等),不同的智能体驱动不同的模型进行各项工作内容同时进行。
- 第二个demo同理,让NEO执行端到端模型构建和问题解决,提出一个构建信用卡欺诈检测系统的解决方案。
在此之前,专为ML设计的agent还有,比如专为Kaggle机器学习竞赛构建的框架AIDE。

AIDE是Weco AI公司专门为Kaggle竞赛设计的开源Agent框架,舍弃了一部分通用性,在ML方面进行了优化。在十月份OpenAI发布MLE-bench之后,这个竞赛专用的Agent框架也跟着火了一把。
OpenAI测试人员用GPT-4o模型分别在AIDE、MLAB、OpenHands框架上进行了MLE-bench测试,并对每个框架进行了微调。
其中GPT-4o+AIDE的组合表现最佳(8.7%的比赛获得了奖牌),远远超过了MLAB(0.8%)和OpenHands(4.4%)的成绩。而改用OpenAI o1-preview模型配合AIDE框架,则得出了16.9%的遥遥领先的成绩。
AIDE的出现,代表了一种新的尝试,结合代码逻辑和神经网络,专门针对ML进行优化,更适合处理专项专用的问题。在ML特化的Agent框架的基础上,基于前沿LLM的能力,让AI训练AI从设想变成了可能。
在AI公司竞相研究前沿LLM的现在,机器学习过程的自动化,或许能给整个AI市场带来一场重塑。
真的是ML模型在创造ML模型了!
不过NEO目前还在内测阶段,现在想使用得向官方发申请。
附上申请网址:https://heyneo.so/waitlist
拿到名额的小伙伴可以分享一下,用起来是不是真的这么SOTA~



参考资料
https://x.com/withneo/status/1857448521617592631?prefetchTimestamp=1731739972421
https://www.weco.ai/blog/technical-report