唐卡作为藏族文化中一种独具特色的绘画艺术形式,题材广泛,
包括天文、地理、自然科学和人文知识等方面。唐卡以图像方式传播
着藏族的文化,讲述着民族发展的过程,所以运用目标检测技术对唐
卡进行识别和检测有着很高的研究价值和意义。由于唐卡图像具有复
杂的颜色特征和纹理特征,而传统目标检测更注重提取目标轮廓而不
是纹理,这使得目前卷积神经网络在唐卡主尊检测中的应用具有一定
的局限性和不足。同时唐卡主尊类别较多,没有专门的数据集,这也
增加了该任务的难度。为实现较高准确率的唐卡主尊图像检测和识别,
本文基于深度学习开展了唐卡主尊图像目标检测和识别方法的研究,
具体研究内容如下:
1
()建立唐卡主尊图像检测数据集。通过改进的代码自行收集
14GridMask
行增强,与传统以及Cutout数据增强方法作对比,在两种网络模型
上进行验证。实验结果证明,GridMask数据增强更适合唐卡数据集,
识别和检测精度达到了96.52%。
26
()构建了唐卡主尊损失函数目标检测模型。提出并改进了
种损失函数,可以融合在多种网络模型中。唐卡图像中包含尺寸较小
的目标,使得网络识别精度降低,构建新的损失函数,通过调整不同
尺寸目标在损失函数中所占的权重,集中网络注意力在难以识别的小
型目标上,提高模型对小型目标的检测能力。将其分别融入到
II
YOLOv4和YOLOX两个网络模型上,在公共数据集VOC2007和
COCO1.4%0.4%0.1%1.6%
上检测精度分别提高了和以及和。选择
YOLOX-F
适合的损失函数模型(4)在唐卡数据集上检测精度提高了
0.73%,准确率达到了97.25%。实验结果证明,提出的目标尺寸损失
函数在不影响大目标检测精度的同时能够有效提高尺寸相对较小的
目标的检测精度。
3YOLOX-FPAM
()设计了基于4的唐卡主尊并行注意力()目
标检测模型。为了提高唐卡主尊图像的检测精度,使检测网络更好地
影响,提出了PAM注意力机制,让图像经过卷积网络后得到的特征
图,同时经过通道注意力机制和空间注意力机制,最后进行融合得到
输出。将其嵌入到YOLOX-F4模型中,达到提升该模型对唐卡图像目
标的注意,从而提高唐卡中目标的检测精度。实验结果证明基于
YOLOX-F4的并行注意力机制能得到更好的效果,在唐卡图像识别任
务中,YOLOX-PAM+F4模型的检测精度提高了0.79%。
关键词目标检测,唐卡图像,目标尺寸损失函数,并行注意力机制
III
ABSTRACT
Tangka,asauniquepaintingartforminTibetanculture,hasawide
rangeofthemesincludingastronomy,geography,naturalscienceand
humanities.TangkaspreadsTibetanculturethroughvisualimagesand