自主水下航行器协同控制研究现状与发展趋势
作者:闫敬1,陈天明1,关新平2,杨晛1,罗小元1
单位:1.燕山大学电气工程学院,河北秦皇岛,066099;2.上海交通大学电子信息与电气工程学院,上海,200240
基金项目:国家自然科学基金优青项目资助(62222314)
作
者
简
介
闫敬(1985),男,博士生导师,教授,主要研究方向为水下机器人/传感网协同监测
摘要
自主水下航行器(autonomousunderseavehicle,AUV)是一种由推进系统驱动、由电池或燃料电池提供动力、由机载计算机控制和驾驶的水下航行器,其发展对深海生态系统的勘探、开发和利用产生了重大影响。在深海环境中,人类停留和执行探索、采样、侦察和目标探测等任务是十分危险的,AUV耐高压的特点使其在深海环境中的应用越来越广泛[1-3]。虽然近年来AUV的技术研究取得了重大进展,但在许多情况下,由于复杂洋流对AUV的控制存在扰动,海洋生物可能附着表面干扰传感器等设备的工作,有限的电源供应也可能会延迟任务的完成,单个AUV很难在未知的水下环境中完成复杂任务[4]。因此,应用多AUV系统,以更高的效率、更低的成本来完成任务就显得尤为迫切。图1给出了多AUV协同控制场景。
图1多AUV协同控制场景
图2美国防部无人系统发展路线图部分封面
相较于国外AUV协同控制的发展,我国在该领域起步较晚,但发展迅速。国家基金委以及国防科工局对水下监测网络尤其是多AUV协同控制的资助力度也在逐年增加,其中2022年11月公布的《国家自然科学基金“十四五”发展规划》,明确指出将“水下无人装置与水面船舶互联基础理论为代表的空天地海协同信息网络”作为“十四五”优先发展领域[8]。国内众多高校与研究所也开展了多AUV协同控制的理论与应用研究,并取得了一定的成果。其中,2019年2月,中科院沈阳自动化所研制的“潜龙三号”AUV在大西洋开展了首次应用下潜,完成了约40km2的热液异常区域探测;2020年9月,南方海洋科学与工程实验室陈大可院士牵头的“智能敏捷海洋立体观测系统”,利用空、海、潜等智能无人装备进行多潜器跨域协同,完成了首次系统级演示验证。国内已取得的研究成果对进一步开展多潜器协同控制技术研究意义重大。
1
多AUV协同控制研究现状
多AUV系统具有分布式和自主式等特点,在个体层次上,单个AUV只需要有有限的采集信息能力、计算能力和通信能力即可,而在群体层次上,多AUV系统可以表现一些复杂的智能行为,并能够完成困难、危险或者高精度的任务。因此,多AUV协同综合了编队控制、协同导航和定位、路径规划、任务分配以及目标围捕。
1.1编队控制
编队的目的是控制AUV的相对位置、速度和方向,以便在群体移动的同时执行任务。为了实现编队控制,AUV之间需要通过无线通信交换一些关键信息。
1)编队控制架构
图3AUV编队控制架构图
2)编队控制策略
目前,AUV编队控制策略大致可分为基于领导者跟随者策略、基于行为策略、基于虚拟结构策略、基于图论策略以及基于人工势场策略。
在基于领导者跟随者的策略中,1个或多个AUV作为领导者,其他AUV充当跟随者。跟随者通过跟踪领导者的位置和方向来实现编队[16]。学者们提出了多种基于领导者跟随者的策略,如单领导者策略[12]、多领导者策略[17]、虚拟领导者策略[18]等。单一领导者的策略只有1个领导者,且该领导者有1个或多个跟随者。多领导者策略有2个或2个以上的领导者,每个领导者至少有1个跟随者。与单一领导者相比,多个领导者可以实现良好的编队性能[12]。而虚拟领导者策略则允许AUV跟随虚拟的领导者[17],虚拟领导者可以看作是整个编队的移动参考点,虚拟领导者有1个预定义的轨迹,这也是整个编队的期望轨迹。为了保持编队,当AUV编队移动到目的地时,其他AUV与虚拟领导者保持恒定的距离。基于领导者跟随者策略的优点是控制器的设计很简单,因为整个编队的运动是由领导者决定的;缺点是,上述策略均不够鲁棒,因为追随者之间不能相互交流,如果领导者失败,整个编队就会失败。
在基于行为的策略中,需为每个AUV设计一些期望的行为。每种行为都有自己的目的,如移动到目标、躲避障碍、躲避AUV和保持编队[19-20]。基于行为的控制器作为这些行为的结构化网络来运行,并决定哪些行为应该一起运行[20]。基于行为策略的优点是AUV之间需要交换的信息很少;缺点是基本行为的控制器设计和局部控制规划有难度,且不能保证编队控制的良好稳定性。
在基于虚拟结构的策略中,一组AUV被视为一个刚性结构,使AUV之间保持为一个具有固定相对范围的几何形状[21]。实现虚拟结构策略需要3个步骤:首先,定义虚拟结构的期望动态行为;其次,将虚拟结构的期望行为转化为每个AUV的期望运动;最后,根据每个AUV的期望运动,设计AUV的跟踪控制器。虚拟结构策略的优点包括:AUV的协同行为易于描述;刚性结构具有良好的维持编队的性能,其缺点是适应性和灵活性较差。
基于图论的策略包括无向图和有向图[22]。在该策略中,每个节点为1个AUV。在无向图中,一条边的长度为2个AUV间距离;在有向图中,如果某个AUV对另一个AUV有影响(例如,一个AUV的状态取决于另一个AUV的状态),那么它们之间就存在一条具有方向性的边。在这2个图中,节点的编队形状可表示AUV的编队形成形状。基于图论策略的优点是,图论可以为编队控制提供足够的理论支持;缺点在于,设计和求解基于图论的策略比其他策略更为复杂。
基于人工势场的策略是假设AUV在一个抽象的人工势场中移动,其中包括一个排斥势场和一个吸引势场。在势场中,AUV的运动依赖于一个潜在的力,期望的位置会产生一个有吸引力的潜在力,使AUV朝向期望的位置运动;而障碍会产生一个排斥力,它与AUV和障碍物之间的距离成反比,使AUV远离障碍。势能是系统的一种特性,它取决于2个物体(如障碍物和AUV)之间的相对位置。势力和势能之间的关系类似于重力和重力势能之间的关系,如果势力使AUV移动,势能就会减小。AUV的运动可看作将一个编队从高值能量状态移动到低值能量状态。一个场的势能可以表示为人工势函数,包括吸引势函数和排斥势函数。人工势函数策略具有计算简单、易于实现和实时控制等优点,缺点是很难找到全局最小值。
3)面临的约束
为实现AUV的编队,需要通过无线通信交换一些关键信息。由于水下特殊的环境,水声传输的过程中往往会面临着众多的约束条件。因此,在编队控制中应考虑复杂环境因素,如通信时滞、动态不确定性、有限带宽和弹性控制等因素。
1.2协同导航和定位
任何控制系统都需要载体自身的位置信息,以实现闭环反馈。多AUV协同导航和定位是指一组AUV实现信息交换和资源共享,并利用水下声通信观察未知的水下环境,然后通过信息融合和状态估计的方法获得比单一AUV更准确的估计[41]。使用一组AUV协同进行定位,可以承担复杂任务,如广泛的水下目标探测和海洋环境的综合调查。此外,可使导航系统具有更好的容错能力、鲁棒性和稳定性。与多传感器信息融合结构分类的方法类似,从算法的角度分类,协同导航和定位方法也可以分为基于滤波器的方法和基于优化的方法。
1)基于滤波器的方法
基于滤波器的协同导航和定位方法主要包括卡尔曼滤波器及其变体。当状态噪声和测量噪声均为高斯分布时,卡尔曼滤波器是一个在最小均方误差意义上的最优估计器。在此基础上,提出了一些著名的高斯近似滤波器,如扩展卡尔曼滤波器[42]和无迹卡尔曼滤波器[43-45]。标准卡尔曼滤波器及其变量是基于最大后验估计的,通过状态预测和状态更新2个过程得到的线性最小均方偏差和无偏估计方程。这些方法可以解决从线性高斯系统到非线性非高斯系统的大部分状态估计问题。在实际应用中,真实状态噪声和测量噪声可以交替成为高斯噪声和非高斯噪声,这给传统的高斯近似滤波方法带来了挑战。当系统正常运行,水下环境未受异常干扰时,状态噪声和测量噪声均为高斯分布[46]。然而,当系统受到脉冲干扰、传感器异常值和水声通道多径效应的侵蚀时,状态噪声和测量噪声可能分别是重尾噪声和倾斜噪声[47]。
2)基于优化的方法
传统基于滤波器的迭代滤波算法在多AUV协同定位时有很大的非线性观测方程条件下的线性误差,并且由于是基于准确的观测信息实现的,当观测信息不准确时,容易引起滤波不稳定问题。基于优化的方法将系统状态作为变量,通过引入运动方程和观测方程约束,来构造用以优化的误差函数。利用优化技术实现的算法通常会将全局函数的优化问题转化为局部函数优化问题。
需要指出的是,流速场与水声弱通信约束,以及移动目标自身高机动特性,导致现有最小二乘定位估计器易陷入局部最优解,而基于凸优化策略的定位估计器求解过程复杂甚至无解。针对上述问题,作者团队[57-59]探讨了流速场与水声弱通信约束下的网络自定位与移动目标定位问题,系统地提出基于深度学习的定位优化估计器,采用值迭代方式对增量进行更新,以快速收敛到全局最优解,并严格刻画了收敛到全局最优值。
1.3路径规划
多AUV的协同路径规划研究主要以智能算法为主,因为智能算法在解决复杂动态环境中的路径规划问题上具有重要而有效的作用。目前主流的协同路径规划算法包括:粒子群优化算法、差分进化算法以及人工神经网络算法等。
粒子群优化算法是一种基于鸟类种群捕食和返回的启发式算法[56]。寻找最优路径的基本思想是通过群体中的个体合作机制,在鸟类运动过程中采用迭代的方法。Yang等[60]提出了基于改进的粒子群优化算法的3次样条优化算法来解决多AUV路径规划问题。由于中心路径是由一个3次样条来描述的,因此路径规划等价于一个特定的3次样条的参数优化。Yan等[61]建立了一个具有复杂水下环境的多AUV动态形成模型,该模型结合了人工势场算法和粒子群优化算法,可变大小的粒子群优化作用是通过动态调整路径节点的数量和分布来找到一个优化的路径来实现的。
差分进化算法的原理与遗传算法非常相似,即在突变操作中利用种群中个体间的差向量对个体进行扰动以实现个体变异。差分进化算法的鲁棒性优于遗传算法,在AUV协同路径规划问题上取得了令人满意的结果,其中Li等[62]采用差分进化算法解决了AUV三维路径搜索中的避障问题。
人工神经网络是一种模拟人脑思维能力,利用大量模拟神经元实现非线性算法功能的网络。该算法的泛化性能较差,处理速度较慢。但由于其强大的学习能力、自适应能力和较强的鲁棒性,在避碰的AUV路径搜索中应用广泛[63-64]。Zhu等[65]提出了一个嵌入在自组织图神经网络中的生物启发式神经网络。在这种方法中,自组织图神经网络将多AUV群分配到水下环境中的多个目标位置。然后,为了避免每个AUV访问相应目标位置的障碍和速度跳跃,使用生物启发式神经网络更新自组织图获胜者的权重,实现多AUV协同路径规划和有效导航。此外,人工神经网络易与其他算法相结合,其改进后的算法及与其他算法的结合已成为路径规划领域的一个热点。Cao等[66]提出了一种结合人工神经网络和速度合成的多AUV算法,以消除多机器人协同路径规划中电流的影响。随后混合了生物启发式自组织图算法,以确保环境建模的稳定性[67]。
1.4任务分配
根据分配方式,任务分配可以分为集中式分配方法和分布式分配方法。其中,集中式分配方法是控制中心在整体任务发布之前确定任务的分配方案,然后移交给AUV子任务执行。这意味着AUV只承担系统中的执行步骤,而不参与决策步骤。分布式分配方法的不同之处在于,AUV相互通信,相互协商,提出一个分配计划然后执行。其优点是可以保证单个AUV的最大效益,并充分利用AUV的智能元素。考虑到大型智能水下系统的通信负担与建立集中控制中心的高昂成本,目前的水声通信技术还不能满足集中式方法对水下大量信息交互的需要。因此,分布式分配方法更适合于水下系统[68]。分布式分配方法主要包括合同网算法、市场拍卖算法以及本身适用于多智能信息通信的算法,如自组织映射算法。
1)合同网算法
图4合同网算法原理图
2)市场拍卖算法
3)自组织映射算法
Zhu等[78]提出了将SOM应用于多AUV系统的任务分配和路径规划方案,同时提出了一种基于SOM神经网络的多AUV系统任务分配算法。考虑到SOM神经网络的自组织特性,该方法不仅适用于静态环境,而且可以充分应用于动态环境中的任务分配,并将机器人的运动规划集成到任务分配中,使多个AUV能够根据环境的变化,自组织任务分配,并实时动态调整运动规划。Zhu等[79]考虑了AUV的安全距离,并将获胜邻域更新规则加入速度合成算法,有效消除了洋流对AUV的影响。虽然三维空间中的任务分配问题得到了有效解决,但没有考虑到障碍,因此朱大奇等[80]引入了栅格置信函数的概念,给出了一种改进的栅格置信自组织算法,旨在确保AUV到达目标位置的同时,能够自动避开障碍物。Zhang等[81]使用向量方向的自组织算法任务分配的多机器人系统使机器人能够访问每个目标位置,整个过程包括神经元的选择、邻居函数的确定以及修改权重。后续研究,大多从路径规划角度优化自组织映射[82-83]。
1.5目标围捕控制
目标围捕是指在多AUV协同的动态过程中多个捕食者捕获多个逃离者,其中包括多个协同技术领域的交叉问题,如协同搜索、协同路径规划、分布式协同与控制以及任务分配等。
2
未来展望
21世纪是海洋的世纪,海洋资源、海上权利以及海洋经济将成为区域竞争的主要焦点。美国、日本、欧盟等国家和地区竞相制定海洋战略,以抢占海洋科技竞争与未来发展制高点。我国拥有3.2万公里海岸线、300万平方公里管辖海域,深耕这片蓝色国土必须以强大的海洋探测能力,尤其是多AUV协同控制能力作为技术支撑。目前,多AUV协同控制技术已有长足发展,但其中仍有众多重要且尚需解决的问题值得深入探究。
1)基于通信交互的AUV中继
在复杂多变的水下环境中,保持多AUV系统持续的通信链接是一个重要的指标。当通信链接正常时,每个AUV都是相同的类型并且能够执行任务。而当通信质量恶化时,为了提高水声传输信道的质量,一些AUV可以作为专门的信号中继,为其他机器人建立通信链路。在水下对抗环境中,可以部署多个AUV作为中继,以确保AUV之间的通信连通性,实现通信能力提升。作者前期工作[89-90]尝试将水声信道建模引入AUV路径规划与编队控制,同时采用水声信噪比进行优化迭代,为后续进一步研究提供了一定理论依据。
2)结合人工智能学习算法
由于很难对各种环境条件进行建模,水下环境的多变性成为了多AUV协同控制中的一个复杂问题。此外,AUV的动作会使环境不断变化,从而导致高度动态的问题空间。因此,很难采用高度依赖数据的监督学习和无监督学习方法。而强化学习不需要已有知识或数据,是一种解决大规模复杂问题的有效技术。此外,在对抗环境中,干扰者的智能水平会随着AUV的智能水平不断提高而提高,从而使得AUV总是面临新的环境。强化学习通过接受AUV所采取行动上的奖励或惩罚来训练模型,这样它就能够通过学习策略来应对不可预见的环境。强化学习方法可以分为无模型方法和基于模型方法。在无模型方法中,AUV需要通过反复试验与环境保持交互,以便了解行为后果。然而,无论是无模型方法还是基于模型方法都缺乏可伸缩性,只适合于相当低维的问题。如今,随着计算机性能和数据处理能力的不断提高,强化学习与深度学习相结合更适合用于解决大规模复杂问题。
3)虚拟仿真环境构建
水下环境是高度动态的,难以精确预测。为了使AUV适应持续变化的新环境,一种有效的方法是在各种场景下训练每个AUV。然而,构建许多现实场景的成本过高会造成很大的负担,并且训练的过程通常是低效的。因此,在虚拟的仿真环境中训练AUV可能是一个很好的选择。对于每个AUV,其训练结果的最优性在很大程度上取决于虚拟环境的保真度,例如,深度学习需要通过与环境的交互获得反馈来调整AUV的动作策略,然而,建立一个现实的水下洋流和各类地理场景可能会成为一个重大挑战。近年来,一些人工智能公司与游戏公司合作开发了深度学习模拟平台,如“宇宙”、“SC2LE”等。游戏地理场景的生成可以为虚拟地理环境的构建提供重要参考。此外,计算机图形学结合深度学习在现实地理场景生成方面做了大量工作,包括大型室外场景[91]和小型室内场景[92],都是虚拟仿真环境构建技术的有益尝试。
4)软件框架设计
实际应用中,每一种多AUV协同控制技术都是由嵌入在软件中的特定算法实现的。AUV软件架构设计具有需要与不确定和动态环境交互的特点。为了适应这种情况,架构设计应该遵循模块化和层次化的原则,这促使AUV系统被设计为基于分布式组件的系统。在基于组件的体系结构中,每个组件都具有对应于一类算法的独立功能。目前,AUV系统变得越来越复杂,这使得系统需要更多的组件来完成一个特定的任务。如何根据各种组件的功能对其进行模块化,以及如何设计高效的组件管理和调度机制来应对水下环境中的情况变化都是值得解决的问题。
5)多AUV探测通信控制一体化设计
图5多AUV探测通信控制一体化设计
3
水下能量捕获装置对比与展望
文中梳理了近年来国内外有关AUV协同控制关键技术的最新研究工作,概述了多AUV编队控制、协同导航和定位、协同路径规划、任务分配以及围捕等问题的研究近况以及代表性算法的技术细节,讨论了未来研究的重点方向,同时总结归纳了诸多亟待解决的难题。
作为一种跨学科技术,AUV在未来应用中应注重在基于通信交互的AUV中继、结合人工智能学习算法、虚拟仿真环境构建、软件框架设计、多AUV探测通信控制一体化设计等方面的提升,解决复杂水下环境带来的技术挑战,提高多AUV操作能力,使其在未来发挥更重要的作用。