多智能体系统,可自动化整个ML工作流程,节省数千小时工时。
OpenAI的推理模型o1,这么快就被比下去了?
本周五,AI社区见证了又一项突破:一个完全自动化机器学习流程的AI工程师,能轻松获得Kaggle大师水平,在参与的50个Kaggle竞赛上获得了其中26%的奖牌,成绩远远优于之前OpenAI的强化学习加强版的o1模型。
创造这项纪录的AI,来自一家名为NEO的创业公司。
据该公司介绍,NEO可以自动化整个机器学习的工作流程,为开发人员节省数千小时的繁重工作。它是一个多智能体(AIAgent)系统,可用并行的方式解决单一问题。
目前这一AI系统还在内测申请阶段,除了视频Demo内容,我们还能找到官方的简单介绍:
机器学习中的挑战
首先是NEO希望解决的问题。
机器学习的「从数据中学习」这一看似简单的前提掩盖了开发人员每天面临挑战的复杂性。虽然传统编程遵循明确的规则和逻辑路径,但机器学习引入了一系列新的不确定性,即使是经验丰富的开发人员也难以应对。从本质上讲,机器学习不仅需要代码开发的专业知识,还需要对统计学、线性代数和微积分有深入的理解,这是许多软件工程师自大学毕业后就不再遇到的数学问题。
模型的选择带来了另一层复杂性。在解决某个问题时通常会有几十种算法可用,每种算法都有自己的优势和局限性,选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性,从简单的前馈网络到Transformer,每个模型都需要仔细调整超参数。
计算资源增加了另一个复杂性维度。虽然小型模型可以在笔记本电脑上运行,但很多机器学习开发通常需要云基础设施、分布式计算和GPU优化。开发人员必须熟练掌握Docker、Kubernetes和各种云平台等工具。
部署本身也带来了一系列挑战。在开发过程中表现优秀的模型可能会随着数据漂移而退化,需要持续监控和重新训练pipeline。开发人员不仅必须跟踪代码更改,还必须跟踪数据版本、模型参数和训练配置。
这可能意味着开发人员要在每个步骤中投入数周或数月的工时,才能构建一个能够有效解决问题的AI模型。
NEO——完全自主的机器学习工程师
NEO的出现大幅简化了这整套机器学习工作流程,使工程师能够以10倍的速度构建和部署pipeline。它的开发充分考虑了机器学习专业人士的需求,并被设计为像实习生一样,能够从人类的反馈中进行学习。
它是如何运作的?NEO是由多个智能体驱动多个专门模型实现的,每个微调模型专门用于机器学习生命周期的不同部分。
面对具体目标,NEO会启动一套完整的工作流以达成目标。NEO通过结构化的多步骤方法,将复杂问题拆解为易于管理的组件,化繁为简,从而实现目标。
这一方法包括计划、编码、执行和调试的持续循环,确保在每个阶段都进行充分优化。在这个过程中,NEO会根据进展不断调整和迭代,直到获得最佳结果。一旦开发者批准NEO的输出,整个工作流程即可在几秒钟内部署。NEO为机器学习工程师简化了上述所有复杂环节。
它的目标不是取代数据科学家或工程师,而是与人类合作并处理所有繁重任务。在人与AI合作的工作环境中,人们仅用几个小时就能完成一周的工作。
听起来有点像今年3月在AI社区爆火的首个AI软件工程师Devin,不过多智能体的方法青出于蓝。
NEO展示了一系列实际工作的demo,当要求NEO构建一个信用卡欺诈检测系统时,它给出了流畅的任务解决方案。
当要求NEO使用协同过滤方法构建一本书籍推荐模型时,它自动完成了数据集的准备工作,还进行了探索性分析,并对数据预处理进行了结构性优化,使数据集能够更好地用于训练:
那么它的跑分如何呢?研究团队在MLE基准测试(MLE-bench)上对NEO进行了全面评估。MLE-bench是一种创新的基准测试,专注于将AI智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战不同,这个基准测试通过75场实际的Kaggle竞赛来评估AI智能体在机器学习工程中的表现,具有极高的实用性。
在50场Kaggle竞赛测试中,NEO表现堪称卓越:在26%的竞赛中获得奖牌,超越了OpenAI最新推理加强模型o1的基准成绩。为了更直观地理解这一成就,看看NEO到底是什么水准,Kaggle金牌的获得要求就很直白:参赛团队需要进入所有团队排名前10%。这通常需要极高的专业技能、创新方法以及精细优化。
这回落在NEO后面的,是搭配AIDE框架的o1-preview了。
NEO在50场Kaggle比赛中进行了测试,并在其中26%的比赛中获得了奖牌,这一表现远远优于此前的搭配AIDE框架OpenAI的o1在MLE基准测试中的16.9%的表现。
NEO的表现不仅仅是数据,它代表了AI辅助机器学习工程的一个突破。凭借如此表现,NEO已达到堪比Kaggle竞赛特级大师的水平,为用户带来了世界级的机器学习专业能力。
官方称,NEO不仅仅是一款AI工具,而是一个像数据竞赛冠军一样的人类合作伙伴,随时准备解决复杂的数据挑战,以经过验证的竞赛获胜能力助你一臂之力。