本技术涉及医学图像处理,特别是涉及一种腹腔镜手术动作识别方法、装置、设备及存储介质。
背景技术:
技术实现思路
1、有鉴于此,本技术提供一种腹腔镜手术动作识别方法、装置、设备及存储介质,以解决现有手术动作识别方式识别准确性低、计算量大的问题。
2、为解决上述技术问题,本技术采用的一个技术方案是:提供一种腹腔镜手术动作识别方法,其包括:获取腹腔镜微创手术的手术视频,并输入至预先训练好的手术动作识别模型,手术动作识别模型包括第一子模型和第二子模型,第一子模型基于卷积神经网络构建,第一子模型采用参数完全微调的方式训练,第二子模型基于视觉自注意力模型构建,第二子模型采用参数高效微调的方式训练;利用第一子模型从手术视频中提取特征并进行预测,得到第一手术动作预测结果;利用第二子模型从手术视频中提取特征并进行预测,得到第二手术动作预测结果;将第一手术动作预测结果和第二手术动作预测结果进行加权融合,得到最终手术动作识别结果。
3、作为本技术的进一步改进,第一子模型包括第一骨干网络、空间聚合编码器、第一时序聚合编码器、第一器械分类模块、第一器官分类模块、第一动作分类模块和第一三元组分类模块。
4、作为本技术的进一步改进,利用第一子模型从手术视频中提取特征并进行预测,得到第一手术动作预测结果,包括:利用第一骨干网络从手术视频提取得到初始空间特征;利用空间聚合编码器对初始空间特征进行空间集成,得到第一全局空间特征;利用第一时序聚合编码器对第一全局空间特征进行时序集成,得到第一时空融合特征;将第一全局空间特征分别输入至第一器械分类模块和第一器官分类模块进行预测,得到第一器械预测结果和第一器官预测结果;将第一时空融合特征分别输入至第一动作分类模块和第一三元组分类模块进行预测,得到第一动作预测结果和第一三元组预测结果。
5、作为本技术的进一步改进,第二子模型包括第二骨干网络、第二时序聚合编码器、第二器械分类模块、第二器官分类模块、第二动作分类模块和第二三元组分类模块。
6、作为本技术的进一步改进,利用第二子模型从手术视频中提取特征并进行预测,得到第二手术动作预测结果,包括:利用第二骨干网络从手术视频提取得到第二全局空间特征;利用第二时序聚合编码器对第二全局空间特征进行时序集成,得到第二时空融合特征;将第二全局空间特征分别输入至第二器械分类模块和第二器官分类模块进行预测,得到第二器械预测结果和第二器官预测结果;将第二时空融合特征分别输入至第二动作分类模块和第二三元组分类模块进行预测,得到第二动作预测结果和第二三元组预测结果。
7、作为本技术的进一步改进,第二骨干网络预先划分为参数冻结模块、参数高效微调模块和参数完全微调模块,参数冻结模块、参数高效微调模块和参数完全微调模块所占网络层数的数量分别预先设定,参数高效微调模块包括预设数量个tranformer编码器单元,tranformer编码器单元的多头自注意力层串联有一个串行适配器,tranformer编码器单元的多层感知机层并联有一个并行适配器。
8、作为本技术的进一步改进,方法还包括预先训练手术动作识别模型,包括:获取预先打上标签的视频样本;将视频样本分别输入至第一子模型和第二子模型,得到由第一子模型输出的第一样本预测结果和由第二子模型输出的第二样本预测结果;对第一样本预测结果和第二样本预测结果进行加权融合,得到最终样本预测结果;根据最终样本预测结果、标签和预先设置的二元交叉熵损失函数对第一子模型和第二子模型进行训练,直至手术动作识别模型达到预设精度时为止,第一子模型基于参数完全微调的方式进行训练,参数冻结模块在进行模型训练时所有参数均不参与训练,参数高效微调模块在进行模型训练时多头自注意力层和多层感知机不参与训练且串行适配器和并行适配器参与训练,参数完全微调模块在进行模型训练时所有参数均参与训练。
9、作为本技术的进一步改进,获取预先打上标签的视频样本之后,还包括:将视频样本划分为多个视频样本片段;依次将相邻两个视频样本片段基于预设混合强度按像素进行混合叠加,得到混合增强后的视频样本,同时保留两个视频样本片段对应的所有标签。
10、为解决上述技术问题,本技术采用的再一个技术方案是:提供一种计算机设备,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如上述任一项的腹腔镜手术动作识别方法的步骤。
11、为解决上述技术问题,本技术采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述任一项的腹腔镜手术动作识别方法的程序指令。
12、本技术的有益效果是:本技术的腹腔镜手术动作识别方法通过将获取到的手术视频输入至预先构建好的手术动作识别模型,利用手术动作识别模型的第一子模型和第二子模型分别从手术视频中提取特征并进行预测,再将两者的预测结果进行融合,得到最终的手术动作识别结果,该第一子模型基于卷积神经网络构建,能够较好的提取到手术视频中的局部特征,第二子模型基于视觉自注意力模型构建,能够较好的提取到手术视频中的全局特征,与第一子模型提取的特征进行互补,通过将两者的预测结果进行融合,从而二者的预测结果在一定程度上存在互补性,两者的预测结果进行融合可使得手术动作识别结果更为精准,而第一子模型采用参数完全微调的方式进行训练,第二子模型采用参数高效微调的方式进行训练,两者所需训练的参数量均较少,两者联合使用的计算量也不会造成过大的计算负担。