北京大学在多机器人安全协同控制研究中取得进展

目前,多机器人系统已经广泛应用于各种领域,包括工业自动化、物流配送、救援任务等。然而,多机器人系统的控制仍存在一些困难和挑战,如机器人之间的相互作用、动态环境变化等,这些都给多机器人系统的安全控制带来了很大的难度。安全一直是机器人系统开发中的长期追求。在本研究中,研究人员采用安全强化学习解决机器人安全控制问题。在安全强化学习中,约束马尔可夫决策过程通常用于描述安全控制问题。在每个决策步骤中,环境都会产生决策的回报和成本,每个机器人需要在最大限度地提高奖励性能的同时,避免违反安全约束。然而,在现实世界中安全地协同控制多个机器人是一个具有挑战性的问题。更具体地说,需要确保每个机器人在非稳定的环境中尽可能好地完成任务(比如,奖励值越大越好),并且保证每个机器人的安全。例如,在图1中,多个工业机器人如何安全地协作完成焊接任务;在图2中,多个自动驾驶汽车如何安全地协作完成自动驾驶避让。

针对上述问题,本研究团队研究了多机器人协同控制的安全问题,并采用了基于多智能体强化学习的方法来解决。在这个问题中,每个机器人需要满足自己的安全约束,同时最大化其奖励,还必须考虑其他机器人的安全约束以保证整个机器人集群的安全性。

为实现上述目标,研究者首先将问题描述为带安全约束的马尔可夫博弈(图3),并采用策略优化理论来实现带安全约束的策略更新。在这个方法中,所有智能体都需要协作以最大化奖励值,并同时考虑安全约束。通过带安全约束的策略优化,研究者所提出的方法能够保证在每次算法迭代时满足安全约束,同时实现奖励值的单调上升。根据研究者提出的安全引理表明,当所有智能体的策略变化都足够小时,每个智能体都可以通过只考虑其自身的代理回报和代理成本来学习更好的策略。

图3.带安全约束的马尔可夫博弈过程示意图

其次,基于本研究提出的安全引理、多智能体强化学习优势函数分解理论和顺序更新范式(图4),作为理论解的近似,研究者提出了两种安全的多智能体策略优化算法:多智能体的约束策略优化算法和多智能体近似策略优化的拉格朗日算法。我们利用神经网络来参数化智能体的策略,并分别基于线性搜索和拉格朗日优化算法来搜索安全策略,以此作为理论解的近似。

图4.多智能体优势分解引理以及顺序更新范式示意图

第三,为了实现基于强化学习的多机器人安全协同控制,研究者开发了三个多智能体强化学习基准测试(benchmarks),它们都考虑了安全要素。这三个基准测试分别是:

SafeMulti-AgentMuJoCo(如图5、图6和图7所示),每一种颜色代表一个智能体,它们需要协作完成任务,例如向前移动,并且确保安全,即不碰撞到图中的红色墙壁;

SafeMulti-AgentRobosuite(图8、图9所示),多个机器人需要完成抓取或插入等任务,同时不能碰到图中的红色障碍物;

SafeMulti-AgentIsaacGym(图10、图11所示),机器手需要将物体从一个手中抛到另外一个手中,并满足安全约束,如手指自由度约束等。

最后,研究者在以上三个考虑安全性的基准测试上进行实验,结果表明,与目前前沿的算法相比,本研究的方法可以在提高奖励和满足安全约束之间取得很好的性能。

图5.Safe4x2-Anttask

图6.Safe2x3-ManyagentAnttask

图7.Safep1p-coupleHalfCheetahtask

图8.Safe14x1-TwoArmPegInHoletask

图9.Safe4x2-Lifttask

图10.Safe2x6-ShadowHandOvertasks

图11.Safe2x6-ShadowHandOver2Uderarmtask

综上所述,本研究通过引入安全性约束条件和多智能体强化学习技术,提出了一种新的解决方案。该方法通过引入多个机器人之间带约束的策略优化理论,使得每个机器人都可以在与其他机器人协同工作的同时,保持自身的安全性。在实验中,研究者验证了该方法的有效性和可行性。

该研究的贡献在于为多机器人系统提供了一种全新的安全控制技术,使机器人之间可以更加协同高效地工作。此外,该工作也为人工智能领域的研究提供了更多的思路和启示。未来,该研究团队将继续深入研究多机器人系统的安全控制技术,为智能制造和智慧物流等领域的发展作出更大的贡献。

北京大学人工智能研究院研究助理、慕尼黑工业大学计算机学院博士生顾尚定,牛津大学KubaGrudzień为该论文的共同第一作者,杨耀东为通讯作者。合作者包括伦敦国王大学助理教授杜雅丽、慕尼黑工业大学AloisKnoll教授。

北京大学电子学院张志勇教授团队在碳基高灵敏红外探测领域取得进展

北大电子学院张志勇教授团队在碳基高灵敏红外探测领域取得进展

北京大学集成电路学院/集成电路高精尖创新中心共3篇论文在MICRO2024大会发表

北京大学黄如院士-杨玉超教授团队在可重构感存算一体系统方面取得重要进展

北京大学杨玉超教授团队在针对泛用数据库领域设计的忆阻器存算一体架构方面取得重要进展

北京大学集成电路学院/集成电路高精尖创新中心16篇论文在ICCAD2024大会发表

欧盟委员会结束对苹果电子书调查

3小时前

苹果、Google手机浏览器疑影响市场竞争面临英国反垄断正式调查

THE END
1.《多无人机协同控制技术》(周伟)简介书评在线阅读通过90多张图示,系统讲解多无人机协同控制的设计方法和控制算法,针对协同技术重点、难点,给出了对应解决方案。 作者:周伟,李五洲,王旭东,吴超出版社:北京大学出版社出版时间:2019年11月 手机专享价 ¥ 当当价降价通知 ¥47.50 定价 ¥69.00 配送至 http://product.dangdang.com/28493741.html
2.2022年度陕西省重点研发计划项目申报指南目录研究内容:针对复杂构件清洁、无人化、智能化高质量的焊接需求,研究具备自主感知能力的激光焊接机器人;研究激光视觉焊缝跟踪算法,考虑多因素强干扰下的精准实时跟踪,实现焊缝跟踪路径规划,解决不规则焊缝的高质量焊接;研究适应多场景的摆动焊接模式,实现复杂构件多功能焊接;研究光-机器人协同控制技术,开发激光机器人焊接专用...http://www.kt180.com/html/sxs/9889.html
1.协同控制中的共识算法概述协同控制算法因此,共识算法被设计成分布式的,假设车辆之间只有邻居间的相互作用。车辆会根据其邻居的信息状态来更新其信息状态的值。目的是设计一个更新定律,使网络中所有车辆的信息状态收敛到一个公共值。 共识算法具有多辆自动驾驶车辆协同控制的背景,并且在连接稳定的背景下呗理解,已经应用在交会、编队控制、群集、姿态...https://blog.csdn.net/weixin_43448905/article/details/124298498
2.无人机集群协同控制策略.docx其中,最突出的问题是如何保证无人机集群在复杂的环境中实现高效稳定的协同行为。这要求我们深入理解无人机协同控制的基本原理,开发更为先进且实用的算法,并进行大规模的实验验证和实际应用。 未来,随着无人机技术的不断发展以及相关法律法规的逐步完善,无人机集群协同控制将在更多的应用场景中得到应用。因此,开展对这...https://m.renrendoc.com/paper/305980406.html
3.无人驾驶系统核心技术解析:感知规划与控制的协同驱动协同控制算法强调各个子系统之间的协同工作,确保整个系统能够协同运行,达到更高水平的性能。在无人驾驶中,协同控制算法可以使感知、规划和控制三个层次更好地协同工作,提高系统的整体效率和稳定性。 实时性优化算法 实时性是无人驾驶系统中一个至关重要的因素,影响着系统对于环境变化的响应速度。实时性优化算法通过优化...https://www.auto-testing.net/baike/show-2207.html
4.基于TOPSIS算法的多VSG单元协同控制策略为更好地实现多VSG单元在提供惯性支撑时的协同配合,提出一种基于逼近于理想值排序方法(TOPSIS)的多VSG单元协同控制策略。首先,通过系统中各储能端的剩余容量和系统频率变化率,对含多VSG单元的系统总惯量大小进行调整;其次,综合考虑各VSG单元的储能荷电状态、换流器容量、储能充放电功率限制等指标差异,结合TOPSIS算法对...https://www.cnki.com.cn/Article/CJFDTotal-DLZS202009010.htm
5.基于一致性算法的微电网分布式协同控制与优化但是其本质为有差控制,在具有多个分布式电源的微电网系统中难以实现精确的功率分配。因此,可以在微电网分布式电源信息交互的基础上,通过分布式平均一致性算法来估计分布式电源功率的均分值,并以此构造微电网的二次控制项来提高系统的运行性能,实现有功功率、无功功率在各分布式电源的精准分配,维持系统的频率、电压在额定...https://wap.cnki.net/lunwen-1022592557.nh.html
6.上海交通大学智能无线网络与协同控制中心5.事件触发算法的鲁棒性研究——张仕琦 北京大学 多自主体系统的协同控制属于自动控制理论与应用领域的核心关键问题,是当前国际系统与控制领域的前沿研究方向在无人集群系统、传感器网络军事航天等领域均有重大应用前景。协同控制的核心是设计基于局部信息的分布式协同控制律,以实现期望的集群行为,在本报告中,我们将阐述对...https://iwin.sjtu.edu.cn/Web/Show/316
7....协同编队避障路径规划matlab代码51CTO博客【无人机编队】基于人工势场算法实现多机器人协同编队避障路径规划matlab代码,1简介本文提出一种基于一致性算法和人工势场方法的无人机编队及其避障控制方法.通过引入与障碍物移动方向垂直的辅助牵引加速度信息,可消除局部优化解的影响.同时,为了实现无人机机群快速编队和https://blog.51cto.com/u_15287693/4792504
8.计算机测量与控制杂志关键词:虚拟目标机 动态系统建模工具 协同仿真 软件非干涉运行监控技术 动态系统建模工具可以按照设定的仿真步长对控制器的行为动态模拟,也可以在仿真环境下模拟控制器所在的系统架构和动态数据交互,因此传统的卫星控制系统方案设计时一般采用在同一模型建模体系进行,并进行相应的控制算法设计;但是由于动态系统建模工具其自...https://www.youfabiao.com/jsjclykz/201908/
9.“新一代人工智能”研究的三大重点方向围绕提升我国人工智能国际竞争力的迫切需求, 面向重大需求,突破新一代人工智能关键共性技术,以算法为核心, 数据和硬件为基础, 全面提升感知识别、知识计算、认知推理、协同控制与操作、人机交互等能力, 形成开放兼容、稳定成熟的技术体系。 2.1 可泛化的领域知识学习与计算引擎 ...https://blog.itpub.net/29829936/viewspace-2600424/