本发明属于机械臂控制领域,尤其涉及云边端协同下事件触发的双连杆机械臂控制方法及系统。
背景技术:
2、2013年由侯忠生、朱远明于论文"controller-dynamic-linearization-basedmodelfreeadaptivecontrolfordiscrete-timenonlinearsystems."ieeetransactionsonindustrialinformatics,2013,9(4):2301-2309.中首次提出针对单输入单输出系统的直接型单变量无模型自适应控制方法,历时7年,由北京交通大学余弦于2020年在其博士学位论文“基于控制器动态线性化的数据驱动迭代学习控制及应用[d]”,北京交通大学,2020.中发展了针对多输入多输出系统的直接型多变量控制方法,现已成为一类典型的数据驱动控制方法,吸引学者探索其与神经网络结合的潜力,以提升多输入多输出被控系统的控制性能。随着云计算、边缘计算以及直接型多变量无模型自适应控制方法的发展,为双连杆机械臂控制提供了新的思路。然而,实际应用中,云边端系统受限于系统带宽和通讯资源,传统的周期性采样和数据传输方案,即使系统状态变化微小,也会消耗大量网络带宽和能源,造成通讯资源浪费,并增加系统运行成本。
3、为了解决上述问题,事件触发控制方案应运而生,该方案仅在系统状态发生重要变化时才进行数据传输和控制操作,有效地减少了不必要的通讯和计算,从而节省了系统资源;另一方面,为进一步提高双连杆机械臂的控制性能并结合云边端的优势,本发明将直接型多变量无模型自适应控制和强化学习进行深度融合,提出一种基于事件触发的控制方法;鉴于现有研究中尚未涉及此类方法,本发明提出了一种云边端协同下事件触发的双连杆机械臂控制方法及系统。
技术实现思路
1、为了解决背景技术中存在的问题,本发明提供一种云边端协同下事件触发的双连杆机械臂控制方法,所述云边端包含云端、边缘端、终端,包括以下步骤:
2、步骤(1):终端通过传感器信号采集装置采集双连杆机械臂的实时数据,所述实时数据包括第一连杆的实时期望关节角度、第一连杆的实时运行关节角度、第二连杆的实时期望关节角度、第二连杆的实时运行关节角度,并将所述实时数据发送至边缘端;
3、步骤(2):边缘端对所述实时数据进行预处理;设计动态事件触发机制,若满足触发规则,则将预处理后的数据输入基于在线actor-critic强化学习网络进行自适应学习的多变量解耦无模型控制器,计算得到双连杆机械臂的控制指令,所述控制指令包括第一连杆的控制指令以及第二连杆的控制指令,若不满足触发规则,则保持上一触发时刻的控制指令;将所述控制指令发送至终端,终端根据所述第一连杆的控制指令以及第二连杆的控制指令控制双连杆机械臂运动;同时,边缘端将所述预处理后的数据发送至云端;
4、步骤(3):云端根据边缘端反馈的数据,结合所述动态事件触发机制,若满足触发规则,对所述多变量解耦无模型控制器的参数进行优化更新,并将优化更新后的多变量解耦无模型控制器参数传递至边缘端的多变量解耦无模型控制器,若不满足触发规则,则不进行任何操作;
5、如此重复上述步骤(1)-步骤(3),直到控制任务结束。
6、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,步骤(2)中所述设计动态事件触发机制,用于确定下一次触发时刻的动态事件触发机制为:
7、
8、其中,为第s个触发时刻,s为正整数,为采样时刻第连杆的触发误差,为第s个触发时刻第连杆的实时运行关节角度,为k采样时刻第连杆的实时运行关节角度,,双连杆机械臂;为内部动态变量,更新规则为:
9、
10、其中,和均为事件触发参数,,,为预设的阈值参数;
11、步骤(2)中所述触发规则,引入指示因子表示是否满足触发规则:
12、。
13、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,步骤(2)中所述若满足触发规则,则将预处理后的数据输入基于在线actor-critic强化学习网络进行自适应学习的多变量解耦无模型控制器,计算得到双连杆机械臂的控制指令,所述控制指令包括第一连杆的控制指令以及第二连杆的控制指令,包括以下步骤:
14、步骤(2.1):在k采样时刻,所述多变量解耦无模型控制器的数学公式为:
15、
16、其中,k为采样时刻,为第个触发时刻,s为正整数,双连杆机械臂;为k采样时刻双连杆机械臂第一连杆的控制指令,为k采样时刻双连杆机械臂第二连杆的控制指令;为第个触发时刻双连杆机械臂第一连杆的控制指令,为第个触发时刻双连杆机械臂第二连杆的控制指令;为指示因子;为k采样时刻的第s+2个时变分块矩阵,为所述第s+2个时变分块矩阵的第x1行第x2列元素,,;所述第s+2个时变分块矩阵的主对角线元素表示k采样时刻双连杆机械臂第x1连杆的控制指令与k采样时刻双连杆机械臂第x1连杆的轨迹跟踪误差之间的映射关系;所述第s+2个时变分块矩阵的非主对角线元素表示k采样时刻双连杆机械臂第x1连杆的控制指令与k采样时刻双连杆机械臂第x2连杆的轨迹跟踪误差之间的映射关系,;l为控制器伪阶数,l为正整数;,,;为k采样时刻双连杆机械臂第连杆的轨迹跟踪误差,,为k采样时刻双连杆机械臂第连杆的实时期望关节角度,为k采样时刻双连杆机械臂第连杆的实时运行关节角度;为k采样时刻双连杆机械臂第连杆的轨迹跟踪误差的一阶后向差分,;
17、步骤(2.2):构建基于在线actor-critic强化学习网络的自适应学习机制;
18、所述在线actor-critic强化学习网络包含个在线actor-critic强化学习子网络,双连杆机械臂;第个在线actor-critic强化学习子网络的输入包含k采样时刻双连杆机械臂第连杆的轨迹跟踪误差、k采样时刻双连杆机械臂第连杆轨迹跟踪误差的一阶后向差分、k采样时刻双连杆机械臂第连杆轨迹跟踪误差的高阶后向差分的任意之一或任意种组合,将的取值遍历正整数区间内的所有值,得到所述第个在线actor-critic强化学习子网络的所有输入;所述第个在线actor-critic强化学习子网络的输出包含actor输出部分和critic输出部分,所述actor输出部分包含时变分块矩阵的第行,所述critic输出部分包含值函数;将的取值遍历正整数区间内的所有值,得到全部个在线actor-critic强化学习子网络。
19、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,步骤(3)中所述云端根据边缘端反馈的数据,结合所述动态事件触发机制,若满足触发规则,对所述多变量解耦无模型控制器的参数进行优化更新,所述优化更新过程包括以下步骤:
20、步骤(3.1):构建具有耦合特性的双连杆机械臂的实时动态线性化模型:
21、;
22、其中,k为采样时刻,双连杆机械臂;为采样时刻双连杆机械臂第一连杆的实时运行关节角度,为采样时刻双连杆机械臂第二连杆的实时运行关节角度;为采样时刻双连杆机械臂第一连杆的控制指令,为采样时刻双连杆机械臂第二连杆的控制指令;,,;定义,为双连杆机械臂的雅克比矩阵,所述雅克比矩阵的非对角线元素表示不同连杆之间的耦合特性;为所述雅克比矩阵的第x3行第x4列元素,,,表示与之间的映射关系;
23、所述双连杆机械臂的雅克比矩阵的迭代学习律为:
24、
25、其中,为第个触发时刻,为第个触发时刻的双连杆机械臂的雅克比矩阵;为指示因子,为步长因子,为惩罚因子;,;表示二范数;
26、步骤(3.2):在所述优化更新过程中,使用一步前向误差;基于步骤(3.1)中所述具有耦合特性的双连杆机械臂的实时动态线性化模型,计算所述一步前向误差的数学公式为:
27、
28、其中,双连杆机械臂;为k+1采样时刻双连杆机械臂第一连杆的轨迹跟踪误差,为k+1采样时刻双连杆机械臂第二连杆的轨迹跟踪误差;为k+1采样时刻双连杆机械臂第一连杆的期望关节角度,为k+1采样时刻双连杆机械臂第二连杆的期望关节角度;
29、步骤(3.3):在所述优化更新过程中,使用双连杆机械臂的雅克比矩阵;基于步骤(3.1)中所述具有耦合特性的双连杆机械臂的实时动态线性化模型,计算所述双连杆机械臂雅克比矩阵的数学公式为:
30、
31、其中,为针对的导数,,;
32、步骤(3.4):在所述优化更新过程中,使用所述双连杆机械臂第连杆的控制指令,其中,分别针对时变分块矩阵中所有元素的偏导数矩阵,所述l为控制器伪阶数,l为正整数,计算所述偏导数矩阵的数学公式为:
33、;
34、步骤(3.5):定义时序差分函数,其中为值函数,为折扣因子;以最小化系统性能指标函数为目标,采用梯度下降法优化更新个在线actor-critic强化学习子网络的权值,所述权值包含第个actor网络权值和第个critic网络权值,h为所述强化学习网络的隐含层节点数,将的取值遍历正整数区间内的所有值,得到全部个在线actor-critic强化学习子网络的权值;
35、优化更新采样时刻所述第个在线actor-critic强化学习子网络的actor网络权值:
36、如果控制器伪阶数,则
37、
38、如果控制器伪阶数,则
39、
40、其中,为第个触发时刻的actor网络权值,;为指示因子,为所述第个actor网络的学习率,,;为k采样时刻双连杆机械臂第连杆的轨迹跟踪误差,采用步骤(3.2)中所述一步前向误差的数学公式进行计算,;是一个期望为0,方差为的正态分布函数;为第个在线actor-critic强化学习子网络隐含层第i个节点的输出;
41、优化更新采样时刻所述第个在线actor-critic强化学习子网络的critic网络权值:
42、
43、其中,为第个触发时刻的critic网络权值,,为指示因子,为所述第个critic网络的学习率;
44、步骤(3.6):优化更新采样时刻所述多变量解耦无模型控制器的时变分块矩阵:
45、如果控制器伪阶数,则
46、
47、将的取值遍历正整数区间内的所有值,得到所述时变分块矩阵;
48、如果控制器伪阶数,则
49、
50、其中,,将的取值遍历正整数区间内的所有值,得到所述时变分块矩阵。
51、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,所述actor-critic强化学习网络采用径向基函数网络;所述径向基函数网络采用隐含层为单层的结构,即采用由输入层、单层隐含层、输出层组成的三层网络结构。
52、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,步骤(2)中所述边缘端对所述实时数据进行预处理包括对所述实时数据进行滤波、降噪。
53、根据本发明提供的云边端协同下事件触发的双连杆机械臂控制方法,所述步骤(1)中终端通过传感器信号采集装置采集双连杆机械臂的实时数据。
54、本发明还提供一种云边端协同下事件触发的双连杆机械臂控制系统,包括:
55、终端,包含实时运行的双连杆机械臂,数据采集模块,第一数据输出模块,第一数据输入模块;
56、数据采集模块,用于采集双连杆机械臂的实时数据,所述实时数据包括双连杆第一连杆的实时期望关节角度、第一连杆的实时运行关节角度、第二连杆的实时期望关节角度、第二连杆的实时运行关节角度;
57、第一数据输出模块,用于将所述实时数据发送至边缘端;
58、第一数据输入模块,用于接收边缘端下发的控制指令,所述控制指令包括第一连杆的控制指令以及第二连杆的控制指令;
59、边缘端,包含第二数据输入模块,数据预处理模块,第一动态事件触发模块,多变量解耦无模型控制器计算模块,控制指令保持模块,第二数据输出模块;
60、第二数据输入模块,用于接收终端上传的所述双连杆机械臂的实时数据;
61、数据预处理模块,用于对所述实时数据进行预处理后发送至动态事件触发模块以及云端;
62、第一动态事件触发模块,用于设计动态事件触发机制,若满足触发规则,则将所述预处理后的实时数据输入多变量解耦无模型控制器计算模块,否则触发控制指令保持模块;
63、多变量解耦无模型控制器计算模块;用于通过基于在线actor-critic强化学习网络进行自适应学习的多变量解耦无模型控制器,计算得到双连杆机械臂的控制指令,所述控制指令包括第一连杆的控制指令以及第二连杆的控制指令;
64、控制指令保持模块,用于保持上一触发时刻的控制指令;
65、第二数据输出模块,用于将所述控制指令发送至终端;
66、云端,包含第三数据输入模块,数据存储模块,第二动态事件触发模块,多变量解耦无模型控制器优化更新模块,第三数据输出模块;
67、第三数据输入模块,用于接收边缘端上传的预处理后的实时数据;
68、数据存储模块,用于存储边缘端上传的所述预处理后的实时数据;
69、第二动态事件触发模块,用于判断是否满足触发规则,若是,则触发多变量解耦无模型控制器优化更新模块,否则不进行任何操作;
70、多变量解耦无模型控制器优化更新模块,用于对多变量解耦无模型控制器参数进行优化更新;
71、第三数据输出模块,用于将优化更新后的多变量解耦无模型控制器参数传递至边缘端。
72、进一步地,本发明采用以下技术方案:
73、一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述的云边端协同下事件触发的双连杆机械臂控制方法。
74、更进一步地,本发明采用以下技术方案:
75、一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的云边端协同下事件触发的双连杆机械臂控制方法。
76、本发明的有益技术效果为:
77、针对多输入多输出被控系统,现有研究尚未涉及结合直接型多变量无模型自适应控制与强化学习网络,并通过事件触发机制解决云边端面临系统带宽和通讯资源有限的问题,本发明提供的云边端协同下事件触发的双连杆机械臂控制方法及系统,至少包括以下有益技术效果:
78、(1)降低建模难度:本发明采用数据驱动控制方法,无需建立精确的动力学模型,降低了建模难度,该方法在应对强时变性、强非线性以及强耦合性的多变量系统时优势更加明显,更易于实际应用;
79、(2)提高控制精度:通过将多变量无模型自适应控制和强化学习深度融合,该方法能够实现更强的学习能力,从而提升双连杆机械臂的控制精度,满足更高精度的应用需求;
80、(3)提升计算效率、节约系统资源:利用云计算平台强大的计算能力进行模型训练和数据分析,并通过边缘计算设备实现实时数据处理和控制指令的快速响应,有效提升了计算效率;另一方面,通过引入事件触发机制,仅在系统状态发生重要变化时才进行数据传输和控制操作,有效地减少了不必要的通讯和计算,从而节省了系统资源;
81、(4)拓宽应用范围:本发明提出的控制方法和系统不仅适用于双连杆机械臂,还可以推广应用于其他多输入多输出控制系统,具有广泛的应用前景。