人体关键点检测任务对于现实生活有着很大的潜在用途,目前公开的比赛中最权威的是MSCOCOKeypointtrack的比赛,也是该领域最有挑战的比赛,参赛队不乏Facebook,Google及微软这样的国际巨头,也不乏CMU等顶尖研究机构,是该领域最先进方法的试金石。旷视科技Detection组在2017,2018年两次夺得该比赛的冠军,2017年旷视COCOKeypoint比赛冠军工作CPN在业界具有深远影响,并获得广泛使用。这里,我们将介绍旷视2018年COCOKeypoint比赛夺冠的工作。
Introduction
图1
深度卷积网络出现之后,人体姿态识别飞速发展。现阶段最优方法[1,2]网络结构较为简单,多是采用单阶段网络设计,比如2017COCOKeypoint挑战赛冠军方法[1]采用基于ResNet-Inception的网络结构,最新的SimpleBaseline[2]采用ResNet网络结构。另一种网络结构则采用多阶段网络设计,即把一个轻量级网络作为单元网络,接着将其简单地堆叠到多阶段。
直观上讲,多阶段的天然逐级优化特性会更适用于这个任务,但是当前存在的多阶段网络并没有单阶段网络在COCO上表现好。我们试图研究这一挑战性问题,提出当前多阶段网络的欠佳表现主要是由于设计不足导致的,并可通过一系列1)网络结构、2)特征流、3)损失函数方面的创新性优化,最大化发掘多阶段网络的潜力,实现目前最先进的效果。
因此,我们提出新型的多阶段姿态估计网络MSPN,具体改进有3个方面:
目前多阶段网络里的单元网络离最优比较远,使用已经验证的网络(如Resnet)要比主流的多阶段方法(如Hourglass)采用的轻量级网络好很多,究其原因主要是下采样Encoder需要承载更多内容,而轻量级网络满足不了。
由于重复下采样,上采样会丢失信息从而不利于学习,我们提出融合多阶段特征以加强信息流动,来缓解这一问题。
我们观察到关节点的定位是逐级精细优化的,因此提出由粗到精的学习策略,并采用多尺度监督提升训练。由图1可知,当提升单阶段网络容量时,精度会趋近于饱和,而增长遇到瓶颈;对于目前主流的多阶段网络,当堆叠多于2个单元网络后,精度提升非常有限。对于我们提出的MSPN,随着单元网络的堆叠数增加,精度会持续提升。
在MSCOCO基准上,MSPN在test-dev数据集上获得76.1AP;在MSCOCO2018中,test-dev达到78.1AP,test-challenge76.4AP,相比去年冠军提升了4.3AP。--------多阶段网络---------
图2
多阶段姿态估计网络MSPN如图2所示。它采用自上向下的框架,即首先使用人体检测算法给出人体框,据此抠图,并进行单人人体姿态估计。如上所述,MSPN的新突破有3点:第一,使用图像分类表现较好的网络(如ResNet)作为多阶段网络的单元网络;第二,提出逐阶段传递的信息聚集方式,降低信息损失;第三,引入由粗到精的监督,并进行多尺度监督。
------有效的单阶段子单元网络设计-----
表1
目前主流的多阶段网络全部基于Hourglass变体。从表1可知,Hourglass在重复下采样和上采样的过程中,卷积层的通道数是相同的。这是因为高层语义信息更强,需要更多通道表征。
下采样时,Hourglass变体会导致特征编码(Encoder)无法很好地表达特征,从而造成一定程度上的特征信息丢失。相比于下采样,上采样很难更优地表征特征,所以增加下采样阶段的网络能力对整体网络会更有效。
--------------跨阶段特征融合-------------
图3
多阶段网络在重复的上采样和下采样过程中,很容易造成信息流失,我们提出了一种有效的跨阶段特征融合方法来应对这一现象。如图3所示,上一阶段上、下采样的特征经过1x1卷积相加到后一阶段下采样部分,从而实现多阶段之间的特征融合,有效缓解特征流失。
---------------由粗到精监督--------------
图4
人体姿态估计如果要定位较有挑战性的关节点(如隐藏关节点)需要较强的领域上下文信息。同时,对于基于回归heatmap的任务,作为GT的高斯核越小,回归精度越准。考虑到以上两点,并结合多阶段网络的自身逐级递进优化的特性,我们提出基于多阶段的由粗到精的监督方式。每个阶段方式的监督heatmap的高斯核逐渐减小,可较理想地兼顾领域上下文信息和精准度。由于中间监督对于深度神经网络有较好效果[3],我们在每个阶段内部也采用了多尺度的中间监督。
-------------实验-------------
实验中,我们使用MegDet[4]获得人体检测框,并使用COCO(80类)之中人这一类的结果作为人体框结果,没有单独针对人进行训练。抠图之前,框扩展为高宽4:3的比例。训练中,我们采用Adam作为优化策略,初始学习率为5e-4,WeightDecay为1e-5。数据增强方面,主要采用翻转、旋转(-45度~+45度)、尺度变换(0.7~1.35)。姿态估计网络图像输入尺寸为384x288。消融实验中,图像输入尺寸为256x192。测试方面,沿用[5]中的策略,即采用翻转求平均,最大值位置向次大值位置偏移1/4作为最终位置。所有消融实验在COCOminival上进行。
消融实验
多阶段网络
我们通过一系列实验验证多阶段网络设计的重要性。
表2
首先,我们通过实验观察单阶段网络增加模型复杂度的表现。从表2可知,ResNet-50作为Backbone的单阶段网络精度可以达到71.5,ResNet-101可以提升1.6个点,但是继续往高增加复杂度,精度的提升幅度逐渐变小,趋近于饱和。
表3
我们同时对比了当前主流的多阶段网络Hourglass与该工作在精度提升方面的差异。由表3可知,Hourglass在第2个阶段以上叠加新阶段提升非常有限:从2个阶段到8个阶段,计算量增加3倍,而精度只涨了0.7AP。相比于Hourglass的增长受限,MSPN从第2个阶段以上叠加新阶段会持续提升精度。
为验证我们对多阶段网络有效改进的泛化性,我们尝试把其他网络作为单元网络。如表4,两阶段的ResNet-18会稍高于相当计算量的单阶段ResNet-50网络。4阶段小计算量的X-ception网络会比同计算量单阶段的大计算量的X-ception网络高出近1AP。
表4
跨阶段特征融合以及由粗到精监督
表5
表5的实验可以验证跨阶段特征融合以及由粗到精监督的有效性。对于4阶段的Hourglass和2阶段的MSPN借助以上两种策略均实现涨点。
------------实验结果-------------
表6
表7
表6和表7分别对比MSPN与当前最优方法在COCOtest-dev数据集和COCOtest-challenge数据集上的精度差异。可以看出,MSPN均超过当前最优方法,在test-dev上领先2.3AP,在test-challenge上领先1.9AP。
----------------总结---------------
我们提出了针对人体姿态估计更有效的多阶段网络设计思想,并用充分的实验验证其有效性,该网络在COCO数据集上突破当前的精度瓶颈,实现了新的state-of-the-art。我们同时也验证了该工作所涉及的多阶段网络设计思想的泛化性。
--------------结果例图-----------
图5
Reference
[1]Y.Chen,Z.Wang,Y.Peng,Z.Zhang,G.Yu,andJ.Sun.Cascadedpyramidnetworkformulti-personposeestimation.arXivpreprint,2018.
[2]B.Xiao,H.Wu,andY.Wei.Simplebaselinesforhumanposeestimationandtracking.arXivpreprintarXiv:1804.06208,2018.
[3]C.Szegedy,W.Liu,Y.Jia,P.Sermanet,S.Reed,D.Anguelov,D.Erhan,V.Vanhoucke,andA.Rabinovich.Goingdeeperwithconvolutions.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition,pages1–9,2015.
[4]C.Peng,T.Xiao,Z.Li,Y.Jiang,X.Zhang,K.Jia,G.Yu,andJ.Sun.Megdet:Alargemini-batchobjectdetector.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages6181–6189,2018.
[5]A.Newell,K.Yang,andJ.Deng.Stackedhourglassnetworksforhumanposeestimation.InEuropeanConferenceonComputerVision,pages483–499.Springer,2016.
---------解读者介绍-------
王志成,清华大学计算机系硕士,现为旷视科技研究员,人体姿态估计研究负责人,COCOKeypoint冠军算法CPN、MSPN共同第一作者,研究方向涵盖人体姿态估计与跟踪、人体动作识别,并在上述方向有着长期深入的研究;2017、2018年作为负责人带队参加COCO人体姿态识别竞赛(HumanKeypointDetection),连续两次夺魁。