4个月前,星尘智能的AstribotS1横空出世——叠衣、分拣物品、颠锅炒菜、吸尘清洁、竞技叠杯等复杂技能样样精通。
一通丝滑操作猛如虎,甚至还被网友冠上了国产人形机器人「核弹」的头衔。
网友们纷纷表示:忽然看到未来养老机器人的希望!
不仅如此,它在国外也破了圈。
人形机器人市场咨询师StewartSwayze称,我们离《杰森一家》中的Rosey越来越近了。
4个月后,星尘智能直接向公众秀真机了!
在今日举行的机器人大会上,顶流机器人一再奉上精彩表现,直接刷爆了好评。
就连大名鼎鼎的FigureAI公司CEO,也在实时追踪。
文能弹琴逗猫,武能咏春篮球,顺便跳个海草舞
我们来逐帧看看这个两天前发布的详细产品演示!
S1产品视频
视频中,AstribotS1能泡茶、做华夫饼、喂猫、清洁……完成一连串高难度、长序列、可泛化的任务,说一句「最强AI机器人助理」,一点也不夸张!
划重点,以上这些demo,都是1倍速、实物实拍、无遥操作的。
S1表现出的敏捷、灵活、精准和丝滑度,无不令人惊叹。
要知道,上面这些动作人类做起很轻易,但对机器人来说,需要跨越极高的技术门槛,单拎出哪一个都不简单。
比如泡功夫茶这个复杂工具泛化的最强操作。
洗茶、冲泡、倒茶、分茶它样样都能拿捏。用视觉识别技术识别茶具位置、形状和状态,用精确的触觉和力觉控制系统舀茶叶、注水、倒茶,一气呵成。
在以后,我们还会有了解自己饮茶偏好的机器人,来提供个性化服务。
而弹奏扬琴,对机器人的细微操作和精准控制能力要求极高。
懂乐器的朋友们都知道,打击乐的精髓,就在于敲击动作的精准度。而且,演奏所持的琴竹和敲击的琴弦都具备弹性,这更是让控制的复杂性大大增加。
机器人必须具备极高的力控能力,和对弹性特性的准确建模,才能「硬控」住弹性形变,同时精细调节敲击力度。
可以看到,机器人会首先利用视觉识别技术,捕捉琴弦的位置和扬琴的结构;然后利用力觉反馈系统,让每一次敲击琴弦都安全准确,既不会太轻也不会太重。
接下来,S1还有一波酷炫操作。其中,投篮要的是精确控制力量和协调性,跳舞和打拳,则是要流畅的身体动作和节奏感。
相信大家看完演示,都有一个共同的感受:这个机器人,怎么这么像人?
是的,星尘智能的理念,即是让机器人像人一样学习、思考和劳动,不断拓展应用边界。
看完S1大秀的这波神操作,我们有理由相信,它离人类互动和家务场景已经不远了!
智能需要一个「身体」
能承载如此多高难度的精细操作,S1的身体,有必要说道说道。
生产线上精确控制的机械臂,不能算作机器人,因为既没有智能,也不会学习和处理问题。
那么,把大模型塞进机器人,就能得出真正的具身智能吗?
显然,并非如此。
正如LindaSmith在「具身假说」中所提出的,只有当一种智能能够感知和导航物理环境时,人类水平的智能才能出现,就像婴儿通过探索环境来学习一样。
同样,Meta的研究科学家AksharaRai也曾表示,「缺乏物理具身的AI系统永远无法真正智能。想要完全理解世界,就必须与之进行互动,并观察这些互动的结果。」
所以,让AI发展出真正智能的唯一方法,就是给它一个身体,以及在世界中移动和体验的能力。
相比之下,纯数字化的AI可能在处理特定任务时表现出色,但总会遇到智能的天花板。
爆火全网的Flux+Gen3生成的视频之所以有破绽,也是AI没有人类的身体,不理解人类的舌头、头发、眼睛为何物
然而,大多数机器人行业的人都知道,「做机器人很难」。这也正巧体现了莫拉维克悖论:对机器人来说容易的事情对人类很难,反之亦然。
随着LLM的爆火,机器人研究领域也出现了一种新的趋势:将LLM嵌入到规划中,将VLM嵌入到感知中,将代码生成用于执行。
但仅仅把未经训练的AI「大脑」放入机器人「身体」里,并不能解决问题。
毕竟,具身智能机器人是集众多领域之大成,包括但不限于机器学习、强化学习、计算机视觉、机器人技术、规划与控制、环境建模与预测、基于物理的仿真等等。
因此,各种多亟待解决的挑战也随之而来。
-现实世界的知识:具身智能必须对物理世界及其规律和动态特性有深刻的理解,从而能够有效且安全地进行交互。
-学习和适应能力:具身智能必须从经验中学习,并适应不断变化的环境。这需要先进的学习技术和极大的灵活性。
-复杂的实体交互:具身智能需要一个能够与物理世界进行自然交互的系统。这涉及到运动协调、环境感知和实时决策的管理。
-鲁棒性和可靠性:具身智能需要足够的鲁棒性(Robustness),从而可以在真实且常常不可预测和动态的环境中可靠地运行。
怎么解决?靠的就是机器人身体和大脑的完美配合。
研发耗时一年,S1在软硬一体化系统架构上取得了重大突破,既有智能的大脑,也有全能的身体。
星尘智能认为,研发出新一代最强AI机器人助理,便需要将「AI智能」和「最强操作」强耦合。
在智能方面,S1拥有一个「最强大脑」。
不仅可以在复杂环境中进行感知、认知、实时决策,而且还具备智能理解和多模态交互执行能力。从而实现物体、任务和环境级别通用操作泛化。
更厉害的是,S1还具备持续学习进化的能力。
从前文的demo中不难看出,S1能像人一样去理解和分析、与人流畅交互,更能通过与人、与真实世界交互获得海量高维数据,从而持续学习进化,不断提升智能化和多任务泛化能力,逐步实现通用智能。
大多业内人士认为,机器人训练最大的瓶颈就是缺乏数据。更何况,机器人还需要理解物理定律和人类现实世界。
对此,星尘智能的思路是:不仅要收集所有可以得到的数据,而且还要高效地利用起来。
「仿真数据要用,人体动捕数据要用,机器人实操数据也要用!」
而由此得到的S1,既可以用第一人称,支持从视频、动捕,以及遥操作收集多维度的高质量数据,实现人类多模态数据交互,也能低成本、高效率地利用已有的真实世界视频数据,以及人体动作数据。
当然是因为,它「用力」方式和人是一致的。
如果只是轨迹一致,并不能满足实操的效果,反而会僵硬,也没有泛化能力。怎么办?
星尘智能的解决办法是——追求更高数据维度,也就是力觉、触觉等。
如果把力的信息采集下来,就能让机器人像人一样,用施加某种力的方式控制精度。
比如,S1把盐舀起来后,会在杯壁上刮了一下,可谓是把人的精巧、细微的力度控制都学出来。