随着社会发展和技术进步,机器人将逐渐成为我们工作、生活中的重要伙伴。认知机器人结合了机器人和人工智能前沿技术,让机器人像人类一样观察、思考、感知世界。本文原载于《AdvancedRobotics》Volume36(2022),有助于我们全面了解认知机器人的发展。
1.引言
认知机器人的角色作用是什么?今天,自动机械和人们通常称之为机器人的界限变得越来越模糊。然而,机器人最初被设想为以更生物或类似动物的方式移动的人工制品。因此,许多机器人研究人员正在寻求开发能够与我们一起生活并相互帮助的机器人。
最近,社会对机器人成为我们合作伙伴的需求迅速增加。为此,机器人需要感知环境,了解周围环境,与人交流,并与人类共享相同的环境。尽管“高水平的认知功能对这些机器人至关重要”的抽象论点没有争议,但所需的认知功能的种类仍然是一个悬而未决的问题。
2014年,在IEEE机器人与自动化学会成立了认知机器人技术委员会(TC-CoRo),以鼓励对认知机器人研究的讨论。TC-CoRo的创始首席主席GiulioSandini教授在TC-CoRo启动时表示,各个科学领域之间的合作对于实现真正有用的认知系统至关重要,机器人技术需要成为整合这些科学的“大熔炉”。
这一信息源于机器人技术的重要特征,即控制器中实现的所有功能都体现为现实世界中的机器人行为。我们可以观察和分析行为中实现功能的细节,超越理论和抽象的讨论。机器人技术的这一特性可以防止对概念功能的讨论变得过于多样化和过于笼统。从机器人技术对提高认知概念的贡献来看这一特征,机器人可以提供一个领域,将计算和行为与环境的物理接触和与他人的交流联系起来,在这里我们可以讨论深入的认知功能,包括认知在过程中的存在和认知的作用。
为了阐明机器人技术的这一作用,我们举办了一场名为“下一代认知机器人的作用是什么?”的在线圆桌会议。在圆桌会议上,我们讨论了从认知功能的基本技能到现实世界中实现的主题。
在本文中,我们总结了圆桌会议的讨论,以阐明适合机器人控制的认知系统和未来认知机器人研究的正确方向。为了总结圆桌会议的讨论,我们首先需要从机器人学的角度澄清为什么认知系统是必要的。在经典机器人技术中,机器人使用如图1(a)所示的系统进行控制。在该框架中,对机器人主体、环境、行为目标和约束条件等重要控制信息进行建模,并设计与模型匹配的控制器。这种基于模型的方法的关键问题之一是模型的错误。即使在工厂等稳定环境中,只要机器人移动并且该运动由传感器测量,不确定的建模错误和传感器噪声是不可避免的。处理这些不确定性的常用方法是在控制器中设计鲁棒性。通过对建模方法和鲁棒控制器设计的许多讨论,基于模型的方法在创造机器人方面取得了巨大成功,这些机器人在稳定环境中快速准确的重复性任务中具有优于人类的能力,例如工业机器人。
然而,随着机器人的应用变得更加多样化,仅通过控制器的鲁棒性来处理不确定性变得越来越困难。特别是在日常生活中,机器人面临的不确定性与工厂中的不确定性有质的不同,例如环境总是在变化或行为目标只能在上下文中设置的情况。与人类的互动,包括使用模棱两可的表达进行交流,也是日常生活中重要的不确定性。这些类型的不确定性无法通过控制器的传统鲁棒性来处理。在这个阶段,我们清楚地认识到,机器人需要的认知功能超出了传统的鲁棒性。
在圆桌讨论中,除了高度的不确定性外,我们还认为连续控制是机器人认知系统的另一个重要特征。为了使机器人成为日常生活中的伙伴,它必须在不停止控制的情况下以适当的方式管理不确定性,即使这种不确定性是一个全新的不确定性。
图1(b)中描述的这两点可能是认知机器人的关键问题。换句话说,通过机器人身体-环境相互作用在线克服新不确定性的能力将认知机器人与其他领域的认知系统区分开来。
在不确定的情况下进行持续控制的关键问题是什么?在圆桌会议上,提出了关键问题的几个重要因素,即概括、主动感知、预测和语言交流。在这篇综述论文中,我们讨论了这些主题,重点是具有不确定性的连续控制。如上所述,在现实世界中建立这些功能而不停止机器人控制的方法,是认知机器人的关键问题。
本文的讨论从这个角度回顾了认知机器人的各种系统,并推导出了认知机器人研究的未来方向。基于机器学习的人工智能也是认知机器人的重要工具。如何在连续控制中使用各种类型的工具也是讨论的重要目标。
2.对环境的理解
2.1信息泛化对认知机器人的重要性
当环境变得复杂时,机器人应该如何处理环境信息?“环境的复杂性创造了行为的复杂性”的概念,正如包容架构所代表的那样,其中各种反应行为是先验设计的,具有许多含义。然而,作为另一种重要的方法,许多认知机器人研究人员会同意这样一种观点,即环境信息的泛化是机器人了解环境并在复杂环境中移动的重要解决方案。此外,当环境的复杂性包括行为目标和与人类沟通的模糊性时,环境信息的泛化对于机器人是必要的。因此,在本节中,我们将总结几种信息泛化方法,以了解环境并讨论复杂环境中机器人控制的适当功能。
2.2环境理解标签
图2.实验中使用的物体和机器人。左图显示了500个对象。机器人显示在右上角。右下角显示了实验中使用的人工标记类别。
这个结果可以说是实现了泛化。此外,人类给出的语言信息也是形成范畴的重要线索。但是,由于机器人事先不具备词典等语言知识,因此无法立即使用该语言知识。机器人需要对人类的话语进行分割,并学习存在哪些语音模式来获取单词。作者解决了在学习这个词的同时找到它们之间的联系的问题,同时从对象中获得的多模态特征。这模仿了一个完全无法理解单词含义的婴儿通过与父母的互动逐渐从统计学上学习物体名称的过程。此外,Miyazawa等人将这一想法扩展到机器人动作学习。这表明机器人可以概括物体,它们的名称和动作,并同时将它们相互联系。
2.3认知机器人对环境的敏感性和不敏感性
在环境信息泛化的过程中,计算需要对小的环境变化“不敏感”。例如,图2中的泰迪熊需要标记为“泰迪熊”,即使发生微小的变化,例如变得轻微破碎或变脏。对微小变化不敏感的能力对于稳定地理解环境至关重要。
然而,以稳定的方式了解环境并不总是一个优势。稳定的理解可能会减少机器人行为的多样性,以应对环境的复杂性。这一事实意味着,如果机器人只使用广义信息,机器人的行为将变得统一,缺乏适应环境变化的能力。因此,控制器需要对环境具有高灵敏度和低灵敏度。
人们已经提出了几种平衡稳定理解和反应行为控制的方法。Solak等人提出了一种强大的兼容控制器,通过将用于广义运动的动态运动基元与虚拟Spring框架相结合,用于机器人指尖上测量的接触力的实时反馈,从而实现灵巧的手部操作。他们在实验上成功地完成了未知物体的手部平移和旋转,如图3所示。Choi等人通过组合反应运动控制器和目标姿势设置控制器来讨论对象处理问题。这种方法考虑了现实的传感器模态,每个控制器在日常生活中具有合理的延迟,以创建适当的行为,从而创建灵巧的处理运动。
图3.人类用户正在教授对特定对象的手动操作操作。然后,机器人可以将学习到的动作推广到不同的物体上,例如更小或更大的物体。
最近,深度强化学习已被用于学习使用灵巧的机器人手操作魔方。虽然令人印象深刻的是,看到有趣的策略(例如手指步态,多指协调,受控使用重力)如何自然地出现在机器人行为中以解决任务,但这种方法需要收集大量标注数据,并且机器人不需要在操纵物体时用手指握住物体以对抗重力(即魔方的立方体放在机器人手掌的顶部)。有趣的是,强化学习过程与基于触觉反馈的低级反应控制器相结合,允许学习更复杂的手操作任务,同时最大限度地减少学习过程中的失败量。然而,这些工作都没有表现出对操纵不同对象的泛化。有的研究工作通过使用连接到指尖的虚拟参考框架来表示对象运动,从而实现对新对象的泛化,该框架基于虚拟Spring框架。通过使用此描述,从使用动态运动基元的人类演示中学习手部操作操作,然后使用兼容的反应式控制器执行,该控制器使用机器人指尖上测量的接触力的反馈。报告的实验表明,机器人可以在不同的物体上执行学习的手部运动(例如任意平移和旋转),如图3所示。
广义信息和反应控制的组合不仅在手部操作中有用,而且在移动控制中也很有用。Okajima等人提出了双足行走控制,使用广义行为目标和通过隐性学习进行反应行为调整,这是一种基于行为的适应架构。他们通过改变代表运动意图的简单信号,成功地改变了行走方向。单个控制系统中不同频率的控制回路有助于平衡稳定性和对环境信息的反应性。Miyazaki等人展示了双足行走控制的稳定性,将其分为两种模式进行奇异扰动分析。他们讨论了慢速模式子系统中重心的运动作为全局运动因子,而每个关节运动都在快速模式子系统中处理。Taniguchi和Nagai等人证明,移动机器人可以为了购物而四处移动,同时对商店中的物体进行符号化。
这些研究结果表明,通过概括环境信息来稳定理解的一个重要优势是,在连续控制回路中自主设定行为目标,同时利用反应运动来适应复杂的环境变化。同时使用对环境变化敏感和不敏感的这两种功能,对于适应环境变化和利用广义信息了解环境,可能会变得更加主流。
2.4有效认知的主动感知
要实现信息的泛化、信息的选择,即使用哪些信息,丢弃哪些信息,也是一个重要问题。当我们考虑人类的感官时,我们不仅对环境变化不敏感,而且为了泛化的目的,我们也无意识地忽略了一些环境信息。在圆桌讨论中,我们提出了“何时停止感知并开始行动?”的问题,并讨论了在复杂环境中需要传感和行动启动的结合才能产生适当的传感。在此背景下,DimitriOgnibene教授提到了主动传感的重要性。他指出了对任何非平凡环境的直接和完全感知的局限性,因为即使我们成功地创建了组织良好的信息泛化系统,传感器中从环境中流动的数据量也很大。同时,感官限制,如遮挡、分辨率有限、信噪比等,即使使用最先进的传感器和算法,也阻碍了对环境的感知。
“决定何时停止感知并开始行动",或者换句话说,在收集更多信息或积极地执行当前最佳行动之间的权衡,著名的探索-开发困境的表述,是主动感知的一个重要方面。在考虑社交互动和学习时,这一方面变得更加重要,这是认知机器人应用的两个核心要求。
2.5认知机器人信息处理的未来方向
正如Doyle教授所指出的,生物控制系统可以用蝴蝶结结构来表示,其中环境输入信号的维数先降低,然后使用低维信号进行几个信号处理,然后再次将信号带回更高的维度,以实现复杂环境中的自适应电机控制。在生物控制系统中,似乎不同水平的广义信号被用于不同的目的,从较高的大脑功能(如行为目标设定,决策制定)到低级行为控制(如力量控制,运动技能调整和传感器集成)。生物系统可以使用这些功能克服连续控制中的新不确定性。虽然生物学方法不是唯一的解决方案,但它绝对是我们应该学习的方法。我们需要加快讨论如何观察和分析信号,以便在了解复杂环境的情况下进行更具适应性和稳定性的行为控制。
3.行为预测
3.1认知机器人的适当预测
机器人能够很好地使用广义信息的最重要好处之一可能是对未来事件的预测。TC-CoRo的创始首席主席Sandini教授为认知机器人提出了“超越实时”的概念,这表明超越实时响应对未来事件的预测的能力对于未来的认知机器人技术至关重要。他表示,这种能力有望导致认知安全的概念,如果机器人能够预测人类将要做什么或想要做什么,那么人类和机器人就可以高度安全地生活在同一空间中。
3.2认知机器人预测的重要动力学
对于类似人类的认知来说,外部环境的重要动力之一是物体含义的变化。可用性的概念,即环境赋予我们物体的意义的概念,是这个范围内环境动力学的关键概念。就机器人控制中可用性的重要性而言,LorenzoJamone教授的论文激发了机器人学领域的几项工作。因此,即使我们在这里没有深入研究,我们也希望机器人可以做出预测,例如,当机器人控制器中很好地实现可用性时,“他将坐在这张桌子上”。
另一个重要类型的认知动力可能是机器人根据情况的内部状态以及对外部环境的解释。在圆桌会议上,AlessandraSciutti博士提出了关于“具身传播”重要性的问题。人类在其他代理中无意识地执行和处理各种运动。例如,当人们环顾四周时,他们的眼睛会立即揭示他们视觉注意力的焦点在哪里,并且很容易预测他们最有可能从凝视分析中获取哪个物体。人类理解内隐信号能力的其他例子包括:从面部表情、声音甚至身体动作的细微变化中识别出某人的情绪状态的可能性,或者从瞳孔大小的变化中推断出他们的注意力激发。这些类型的预测是由所有人类共享的运动规律促成的。隐式信号对于交互非常重要,因为它们代表了“紧急协调”的骨干:相互适应、同步和预期,这些信号在没有意识的情况下发生,并大大减少了认知负荷和交互延迟。
这些具体通信的重要性最近在认知科学和神经科学中得到了认可,而且在机器人和人工智能中也得到了认可。机器人认知需要允许理解人类伙伴的运动,以便能够预测他们的意图。此外,机器人需要能够计划传输类似信号的运动,以使机器人的动作直观可解释和清晰,以促进与人类的有效协作(图4)。
图4.人机相互理解需要利用各种具体信号的交换和理解。它们通常在人与人之间的互动过程中由大脑下意识地处理,从而实现快速有效的协作。
虽然目前还不知道人类究竟扮演什么角色,但可以肯定的是,它们强化了导致意识的知和决策的更高级大脑功能。机器人的认知系统有必要具有这样的功能吗?虽然SoA在机器人行为中的重要性尚未得到充分讨论,但量化机器人SoA的优点可以发展为人机协作的讨论。例如,Ueda等人研究了手术过程中受试者的协助量与SoA之间的关系,以量化自动驾驶系统的适当协助水平。研究表明,在SoA的感知中也出现了类似于所谓的“神秘谷”的现象。在他们的实验中,随着协助量的增加,SoA增加到一定程度,因为目标对象更按照受试者的意图移动。然而,当协助超过一定水平时,受试者开始感到一种失去SoA的不适感。
正如某论文中所描述的,很明显,人类对机器人的过度支持感到不舒服,尽管机器人对人类的适当支持水平尚未得到澄清。最近,SoA的数学模型被提出,我们可以说,讨论机器人SoA的基础已经奠定。帮助在人类和机器人之间共享适当的SoA可能是未来的理想愿景之一。
3.3.超越现实的预测
4.语言交流
4.1认知机器人的语言
语言交流是最重要的高阶认知功能之一,正如圆桌会议所强调的那样。没有语言交流,我们的社会活动是不可能的,这使我们能够在没有详细定义的情况下使用抽象的表达。这种能力是通过与人的交流来学习的,从婴儿的反射性语音反应和两个单词的句子开始,然后自然地发展语法规则。令人惊讶的是,根据我们在婴儿期如何以及与谁交流,我们可以将任何语言作为我们的母语。因此,机器人必须学习和使用语言才能融入人类社会。
Oseki教授指出,为了构建像人一样处理和学习自然语言的认知机器人,我们应该像计算认知科学文献中倡导的那样,对人类语言处理和学习进行“逆向工程”。具体而言,在语言的计算认知科学中,语言处理和学习的计算模型是由最初在自然语言处理(NLP)中开发的符号生成模型和人工神经网络构建而成的,然后根据在认知和脑科学中实验测量的人类行为和神经成像数据进行评估。这里的关键思想是,以科学为导向的“象征主义”方法与以工程为导向的“连接主义”语言处理和学习方法之间的融合对于下一代认知机器人技术非常重要。
Oseki教授还介绍了最近的研究结果,这些结果表明,尽管通过工程评估指标取得了令人印象深刻的表现,但与在较少的训练数据上训练的较小模型相比,称为Transformers的较大最先进的模型并不总是“像人”,以及称为递归神经网络语法(RNNGs)的符号神经架构优于长短期记忆(LSTM)基线,最重要的是,更好地推广到看不见的语言环境。对于未来的研究,鉴于语言处理是信息处理的一个实例,最终在人脑中实现信息处理的实例,Marr描述的三个层次中的“硬件实现”水平必须与语言处理和学习的计算认知科学相结合,以实现计算认知神经科学,以便认知机器人在不确定的环境中与人类进行交流。
图5.SpCoNavi可以使用空间概念,词汇表,以无监督方式学习的地图来执行路径规划。该理论与基于CaI(作为概率推理的控制)概念的基于模型的强化学习一致。
4.2.通过语言学习和理解进行认知
语言基于多模态信息,集成传感器-运动信息的认知系统将是语言交流的关键。学习一门语言不仅仅是处理文本数据的问题。我们人类理解语言的含义与现实世界的传感器运动信息以及我们基于具体的身体体验和符号学交流形成的广义概念的关系。例如,当我们试图理解一个句子,“请去厨房给我带一瓶水”并进行所要求的行为时,我们需要将单词与特定的对象,地点和行为联系起来。这意味着广泛的语言理解实际上是基于现实世界的多模态传感器-电机信息。
因此,开发综合认知系统是在认知机器人中实现语言交流的关键一步。Taniguchi教授认为,基于概率生成模型的方法很有希望。Taniguchi等人提出了一种名为SpCoSLAM的多模态空间概念形成方法,该方法将定位和映射、图像和语音识别、空间分类和词汇获取集成到单个概率生成模型中(图5)。众所周知,概率建模和推理是机器学习的一般概念。例如,作为概率推理(CaI)的控制理论表明,强化学习可以被视为概率生成模型上的推理。SpCoNavi是一种基于SpCoSLAM和CaI的导航方法。SpCoNavi表明,在室内导航任务中学习口语和理解句子可以完全基于机器人的传感器-电机多模态信息进行。
4.3语言对认知机器人技术的进一步发展的重要性
为了取得进一步进展,开发一个完全适应性的综合认知架构不仅在泛化、感知和预测中至关重要,而且在语言交流中也非常重要。Taniguchi教授认为,SERKET作为一种可以组成和分解大规模概率生成模型的框架,对于发展机器人的未来认知是有用的。开发全脑概率生成模型是未来的挑战(图6)。
图6.信号系统概况。
5.认知机器人问题的结论
本文根据2020年12月举行的圆桌会议的讨论,回顾了认知机器人面临的问题。圆桌会议指出,跨学科讨论对于认知系统的进一步发展是必要的,机器人技术可以在具有不确定性的连续控制回路中发挥体现认知功能的作用。在本文中,我们继续讨论了基于“具有广义信息的环境理解”,“主动感知”,“未来事件预测”和“语言交流”的关键功能的认知机器人的必要系统。
对于环境理解,我们提到了对环境投入的高灵敏度和低敏感性对于实现稳定理解和对不确定性的适应性的重要性。信息泛化是稳定理解的重要方法,它将引导指定的功能,如自主行为目标设定。
在复杂的环境中,信息泛化可能不足以感知所有信息。机器人应通过主动感应来选择重要和有用的信息。除了信息选择之外,我们还阐明了主动感知对于超越感知的新型学习架构非常有用。
预测未来事件是基于对环境的理解可以实现的重要功能。尽管众所周知,基于机体动力学的预测是机器人控制的重要因素,但更多的类似人类的预测,有时甚至超越了现实,对于与人类的顺利合作是必要的。这些类型的预测强调机器人的体现,而不是数据科学的预测,数据科学的预测显示事件最有可能发生。
语言交流是未来认知机器人的另一项关键技能。除了信息交换之外,人与机器人之间的语言还需要适应符号学交流。我们需要进一步讨论语言的计算模型。
通过讨论,下一代认知机器人的作用越来越清晰。我们人类可以通过有时条件反射性地做出反应,有时使用广义信息来应对不确定性。我们通过使用各种有吸引力的功能来实现这一目标,例如可用性,SoA和语言通信。认知机器人必须体现自己的方法,因为机器人具有不同的身体、不同的计算机制和与人类不同的存储设备,而不是针对这些功能本身。
为了实现认知机器人的作用,我们认为为认知机器人研究设定原始但具体的目标是很重要的。正如引言中提到的,基于现实世界中行为的讨论是机器人技术的一个重要特征。为了鼓励认知机器人技术的进一步发展,我们需要根据需要设定具体的行为目标,以解决重要的认知机器人问题。我们将继续讨论这些目标的设定,作为认知机器人的一个重大挑战。