?首个自主机器学习AI工程师,刚问世就秒了o1,Kaggle大师拿到饱算法智能体大模型神经网络ai工程师kaggle

多智能体系统,可自动化整个ML工作流程,节省数千小时工时。

OpenAI的推理模型o1,这么快就被比下去了?

本周五,AI社区见证了又一项突破:一个完全自动化机器学习流程的AI工程师,能轻松获得Kaggle大师水平,在参与的50个Kaggle竞赛上获得了其中26%的奖牌,成绩远远优于之前OpenAI的强化学习加强版的o1模型。

创造这项纪录的AI,来自一家名为NEO的创业公司。

据该公司介绍,NEO可以自动化整个机器学习的工作流程,为开发人员节省数千小时的繁重工作。它是一个多智能体(AIAgent)系统,可用并行的方式解决单一问题。

目前这一AI系统还在内测申请阶段,除了视频Demo内容,我们还能找到官方的简单介绍:

机器学习中的挑战

首先是NEO希望解决的问题。

机器学习的「从数据中学习」这一看似简单的前提掩盖了开发人员每天面临挑战的复杂性。虽然传统编程遵循明确的规则和逻辑路径,但机器学习引入了一系列新的不确定性,即使是经验丰富的开发人员也难以应对。从本质上讲,机器学习不仅需要代码开发的专业知识,还需要对统计学、线性代数和微积分有深入的理解,这是许多软件工程师自大学毕业后就不再遇到的数学问题。

模型的选择带来了另一层复杂性。在解决某个问题时通常会有几十种算法可用,每种算法都有自己的优势和局限性,选择正确的方法成为一个关键的决策点。仅神经网络就提供了无数的架构可能性,从简单的前馈网络到Transformer,每个模型都需要仔细调整超参数。

计算资源增加了另一个复杂性维度。虽然小型模型可以在笔记本电脑上运行,但很多机器学习开发通常需要云基础设施、分布式计算和GPU优化。开发人员必须熟练掌握Docker、Kubernetes和各种云平台等工具。

部署本身也带来了一系列挑战。在开发过程中表现优秀的模型可能会随着数据漂移而退化,需要持续监控和重新训练pipeline。开发人员不仅必须跟踪代码更改,还必须跟踪数据版本、模型参数和训练配置。

这可能意味着开发人员要在每个步骤中投入数周或数月的工时,才能构建一个能够有效解决问题的AI模型。

NEO——完全自主的机器学习工程师

NEO的出现大幅简化了这整套机器学习工作流程,使工程师能够以10倍的速度构建和部署pipeline。它的开发充分考虑了机器学习专业人士的需求,并被设计为像实习生一样,能够从人类的反馈中进行学习。

它是如何运作的?NEO是由多个智能体驱动多个专门模型实现的,每个微调模型专门用于机器学习生命周期的不同部分。

面对具体目标,NEO会启动一套完整的工作流以达成目标。NEO通过结构化的多步骤方法,将复杂问题拆解为易于管理的组件,化繁为简,从而实现目标。

这一方法包括计划、编码、执行和调试的持续循环,确保在每个阶段都进行充分优化。在这个过程中,NEO会根据进展不断调整和迭代,直到获得最佳结果。一旦开发者批准NEO的输出,整个工作流程即可在几秒钟内部署。NEO为机器学习工程师简化了上述所有复杂环节。

它的目标不是取代数据科学家或工程师,而是与人类合作并处理所有繁重任务。在人与AI合作的工作环境中,人们仅用几个小时就能完成一周的工作。

听起来有点像今年3月在AI社区爆火的首个AI软件工程师Devin,不过多智能体的方法青出于蓝。

NEO展示了一系列实际工作的demo,当要求NEO构建一个信用卡欺诈检测系统时,它给出了流畅的任务解决方案。

当要求NEO使用协同过滤方法构建一本书籍推荐模型时,它自动完成了数据集的准备工作,还进行了探索性分析,并对数据预处理进行了结构性优化,使数据集能够更好地用于训练:

那么它的跑分如何呢?研究团队在MLE基准测试(MLE-bench)上对NEO进行了全面评估。MLE-bench是一种创新的基准测试,专注于将AI智能体应用于真实世界的机器学习工程任务。与其他人工设计的挑战不同,这个基准测试通过75场实际的Kaggle竞赛来评估AI智能体在机器学习工程中的表现,具有极高的实用性。

在50场Kaggle竞赛测试中,NEO表现堪称卓越:在26%的竞赛中获得奖牌,超越了OpenAI最新推理加强模型o1的基准成绩。为了更直观地理解这一成就,看看NEO到底是什么水准,Kaggle金牌的获得要求就很直白:参赛团队需要进入所有团队排名前10%。这通常需要极高的专业技能、创新方法以及精细优化。

这回落在NEO后面的,是搭配AIDE框架的o1-preview了。

NEO在50场Kaggle比赛中进行了测试,并在其中26%的比赛中获得了奖牌,这一表现远远优于此前的搭配AIDE框架OpenAI的o1在MLE基准测试中的16.9%的表现。

NEO的表现不仅仅是数据,它代表了AI辅助机器学习工程的一个突破。凭借如此表现,NEO已达到堪比Kaggle竞赛特级大师的水平,为用户带来了世界级的机器学习专业能力。

官方称,NEO不仅仅是一款AI工具,而是一个像数据竞赛冠军一样的人类合作伙伴,随时准备解决复杂的数据挑战,以经过验证的竞赛获胜能力助你一臂之力。

THE END
1.酒店预订需求(Hotelbookingdemand)数据分析作为一个数据分析领域的小白,深知前行之路的不易,在自主地系统学习python、sql以及统计学的相关基础知识之后,开始了第一个来自Kaggle的数据分析项目——Hotel booking demand,以学习为目的,主要参考Marcus Wingen的想法。路漫漫其修远兮,且行且珍惜。 一般的数据分析流程为明确问题、数据获取、数据清洗、数据统计和可视化...https://www.jianshu.com/p/d9687ce446c3
2.通过数据分析驱动用户增长知乎Live整理稿做分析的时间里面大概一半是一些 adhoc analysis,20%-30% 做一些对长期来看有好处的工作,比如说 pipeline 的工作把一些过程自动化。还有一部分时间就是看已有的一些 report/dashboard,包括监测有没有异常啊,产品的 performance 是否符合预期等等。 Q: 请问国内哪些行业对数据分析师需求量特别大?游戏行业怎么样?https://weibo.com/p/1001603993976268003547
3....有望带动大数据板块走强。消息面上:(1)近期根据Kaggle的晋级...这些技术的应用,能够显著降低企业在数据分析方面的成本和门槛,使更多中小企业也能享受到先进数据分析带来的好处。有机构表示,随着5G、物联网等新技术的发展,未来将有越来越多的数据需要被收集、存储和分析,这将极大增加市场对高效数据分析工具的需求,推动相关技术和服务的快速发展。https://xueqiu.com/9271268436/312867917
4.陈老师数据分析师八大能力培养part2沟通需求.pdf陈老师数据分析师八大能力培养part2沟通需求.pdf 279页内容提供方:183***7931 大小:22.57 MB 字数:约6.62万字 发布时间:2021-11-25发布于北京 浏览人气:22 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)陈老师...https://max.book118.com/html/2021/1125/6035141114004100.shtm
5.点击流数据驱动的网络零售产品短期需求预测,首发论文首先,在分析点击流特征的基础上,采用主成分分析对两类特征变量降维;其次,综合集合经验模态分解、变分模态分解和奇异谱分析,提出了一种双重分解机制;然后,结合回声状态网络与袋装算法建立集成学习;最后,使用Kaggle网站零售商真实点击流数据集实验研究,采用多种评价指标验证模型的有效性。本研究丰富了需求预测领域的研究,为...https://paper.edu.cn/releasepaper/content/202303-62
6.数据可视化系统开发入门:初学者指南实时性:数据可视化系统可以实时更新图表,反映最新的数据变化,有助于及时发现问题并做出决策。例如,实时监控网站的流量变化。 多源数据整合:可以同时处理和展示来自多个来源的数据,使用户能够从不同角度分析数据。例如,将公司财务数据与市场趋势数据结合起来进行综合分析。 定制化:用户可以根据自己的需求定制图表样式、布局和...https://www.imooc.com/article/368423
7.11月18日开盘必读资讯近日,国家数据局会同有关部门召开数字中国建设工作推进会议,对下阶段工作做出多项部署。会议指出,下一步,要因地制宜、多措并举、大力推进,努力完成《数字中国建设整体布局规划》2025年阶段性目标。具体来看,要持续深化数据要素市场化配置改革。健全完善数据基础制度,推动出台企业数据开发利用、数据产业高质量发展等政策文...https://www.jiuyangongshe.com/a/d0wghed1ux
1.基于python+django的旅游数据分析与推荐系统基于python + django 的旅游数据分析与推荐系统,为游客提供了智能化的旅游决策支持。 系统从多种途径收集旅游数据,包括旅游网站的用户评价、景点预订信息、酒店入住数据等。通过数据清洗和预处理,确保数据的准确性和可用性。 在分析方面,它能挖掘出有价值的信息。例如,分析景点的热门程度,依据不同季节、节假日的客流量...https://blog.csdn.net/QQ3295391197/article/details/143832491
2.数据分析项目案例数据lanhy的技术博客数据分析项目案例数据 项目概述 此项目是学习实践的一个小项目,内容涉及较为简单,仅以此练习验证所学,项目旨在通过对某平台图书数据爬取、处理、可视化等技术手段分析研究图书与读者偏好等因素的内在关联。 摘要 随着技术进步推动数码产品的迭代更新,人们能获得的娱乐形式趋于多样化,更多精彩刺激的娱乐休闲形式深受人们喜爱...https://blog.51cto.com/u_12959/12593466
3.爱数课实验首尔共享自行车需求数据可视化分析爱数课实验 | 首尔共享自行车需求数据可视化分析 爱数课:idatacourse.cn 领域:消费 简介:近些年,“共享单车”模式迅速地在全球各大城市中流行起来,但随着资本的逐步退潮,共享单车企业需寻求新的盈利模式,首要任务便是探究共享单车使用量的影响因素。本案例使用Matplotlib包和Seaborn的可视化库,对首尔地区一共享单车公司在...https://cloud.tencent.com/developer/article/1970491
4.2024精准免费大全(2024精选免费资源汇总)推荐明确需求在使用任何资源之前,首先要明确自己的需求。例如,如果你想学习编程,可以选择Coursera上的计算机科学课程;如果你想进行数据分析,可以利用Kaggle上的数据集。 制定计划制定一个详细的学习或工作计划,合理安排时间,确保能够充分利用这些免费资源。例如,每周安排固定的时间进行在线课程学习,或者每天花一定时间进行数据分析...https://www.scbeilejia.com/post/2754.html
5.AI培训数据全球及中国市场规模研究和预测2024本报告研究全球与中国市场AI培训数据的发展现状及未来发展趋势,分别从生产和消费的角度分析AI培训数据的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。 https://www.shangyexinzhi.com/article/22982279.html
6.综述翻译DeepLearningforCrossDomainFew虽然看起来这个问题已经解决,但重要的是要注意,这仅仅是一个封闭数据集中的实验结果。这些巨大的成就得益于对大量数据和标注的监督深度学习的需求,但这与实际应用仍存在显著差距。首先,在许多领域,数据标注是一个昂贵且耗时的过程,包括工业检测、濒危物种识别以及水下场景分析。为了解决这个问题,研究人员探索了半监督...https://www.51969.com/post/19718224.html