作者:曾爱玲(港中文博士,现已入职腾讯)
单位:IDEA(深圳数字经济研究院)
源码:github/ED-Pose
该篇论文取得效果如下:
这篇文章的优势在于:在复杂的多人场景下能够取得不错的性能提升,虽然在COCO等数据集上的提升不明显。这种端到端的方法,优势在于检测到人体是检测到关键点的一个保证。
本文提出了一种新的端到端显式盒检测的框架,称为ED-Pose,它统一了人级(全局)和关键点级(局部)信息之间的上下文学习。与以往的单阶段方法不同,ED-Pose将该任务重新视为两个显式的盒子检测过程,具有统一的表示和回归监督。首先,我们引入了一个人工检测解码器来提取全局特征。它可以为后一种关键点的检测提供良好的初始化,使训练过程快速收敛。其次,为了引入关键点附近引入上下文信息,我们将姿态估计视为关键点盒检测问题来学习每个关键点的盒位置和内容。人到关键点检测解码器采用人与关键点特征的交互学习策略,进一步增强全局和局部特征聚合。一般来说,ED-Pose在概念上很简单,没有后处理和密集的热图监督。
与两阶段和单阶段的方法相比,它证明了它的有效性和效率。值得注意的是,显式盒检测在COCO上提高了4.5 AP,在CrowdPose上提高了9.9 AP。作为一个具有L1回归损失的完全端到端框架,ED-Pose首次在COCO上超越了基于热图的1.2 AP方法,并在CrowdPose上实现了76.6 AP,达到了最先进的水平。
图1:(a)对姿态估计任务的感知,通常同时捕获全局和局部上下文;(b)是现有估计器的分类。ED-Pose(Ous)是一种新的端到端学习全局和局部关系的单阶段方法。
多人人体姿态估计由于其在增强现实(AR)、虚拟现实(VR)和人机交互(HCI)等领域的广泛应用,已经引起了计算机视觉界的广泛关注。给定一个图像,它的目标是定位图像中每个人的二维关键点位置。尽管已经开发了许多方法(Xiao et al.,2018;Sun et al., 2019; Cheng et al., 2020; Mao et al., 2022; Shi et al., 2022), 它仍然是具有挑战性和棘手的情况下,如严重遮挡,难的姿势,和不同的身体部位尺度。
直观地说,如图1所示,这个任务需要同时关注全局(人级)和局部(关键点级)依赖关系,这些依赖关系集中于不同级别的语义粒度。主流的解决方案通常是两阶段的方法,它将问题分为两个独立的子问题(例如,全局人检测和局部关键点回归)。这些解决方案包括自上而下(TD)方法(Xiao等,2018;孙等,2019;李等,2021b;毛等,2022),性能高,推理成本高,自下而上(BU)解决方案(Cao等,2017;Newell等,2017;Cheng等,2020),推理速度快,精度相对较低。然而,由于手工制作的操作,如非最大抑制(NMS)、感兴趣区域(RoI)裁剪和关键点分组后处理,所有这些方法在全局阶段和局部阶段之间都是不可区分的。最近,Poseur(Mao et al.,2022)试图将自上而下的方法直接应用到端到端框架,发现将出现显著的性能下降(COCO约8.7AP),表明全局和局部关系的学习之间存在优化冲突。
此处没有提到YOLOPose作为一个成功的端到端模型,感觉有些回避问题。
探索一种完全端到端可训练的方法来统一这两个可分解的子问题是有吸引力和重要的。受最近端到端目标检测方法的成功的启发,如DETR(如Carionetal.,2020),相关方法将人体姿态估计视为直接集预测问题。他们利用二部匹配与transformer进行一对一的预测,以避免繁琐的后处理(Li等人,2021b;Mao等人,2021a;2022;Stoffl等人,2021年;Shi等人,2022年)。
DETR的缺陷
最近,PETR(Shi et al.,2022)提出了一个完全的端到端框架来预测实例感知的姿态,无需任何后处理,并显示出良好的潜力。然而,它直接使用一个具有随机初始化姿态查询的姿态解码器来从图像中查询局部特征。唯一的局部依赖性使得人之间的关键点匹配不明确,从而导致表现较差,特别是在拥挤的场景中,对于遮挡、复杂的姿态和不同的人类尺度。此外,无论是两阶段方法还是基于detr的估计器都存在训练收敛缓慢,需要更多的时间(例如,训练模型超过一周)来实现高精度。此外,基于detr的方法的收敛速度甚至比自底向上的方法更慢(Cheng et al.,2020)。我们将在第二节中讨论这些细节。
基于上述观察结果,本工作将多人姿态估计重新考虑为两个显式盒检测过程,称为ED-Pose。我们通过使用解码器实现每个盒子的检测,并将其级联形成端到端框架,使模型快速收敛、精确和可伸缩。
通过两个显式盒检测过程,我们可以在端到端框架中使用一致的回归损失和相同的盒子表示来统一全局和局部特征学习。我们从监督和表示中总结了相关的方法。与以往的作品相比,ED-Pose在概念上更加简单。值得注意的是,我们发现,与没有这种方案的解决方案相比,显式的全局盒子检测将在COCO上获得4.5 AP,在CrowdPose上获得9.9 AP。与自顶向下的方法相比,ED-Pose使人工检测和关键点检测共享相同的编码器,以避免人工检测的冗余成本,并在同一ResNet-50骨干下进一步提高了在COCO上的1.2 AP和在CrowdPose上的9.1 AP的性能。
此外,ED-Pose在COCO上比之前的端到端模型PETR显著超过2.8 AP,在CrowdPose上超过5.0 AP。在拥挤的场景中,ED-Pose以76.6AP(比之前的SOTA(元等人改进,2021)),没有任何功能(例如,没有多尺度测试和翻转)。
作者希望这种简单的显式盒检测、简化损失和没有后处理而统一整个管道的尝试能够为进一步的单阶段框架设计带来新的视角。
随着无锚目标探测器的发展(Tian等人,2019b;Huang等人,2015),DirectPose(Tian等人,2019a)直接从图像中预测所有人的瞬间感知关键点。直接端到端框架提供了一个新的视角,以避免上述在两阶段方法中遇到的繁琐问题。一般来说,这些方法密集地定位一组候选姿势,它们由来自同一个人的关节位置组成。FCPose(Mao等人,2021b)建立在紧凑的关键点头的动态滤波器(Jia等人,2016)之上,以提高精度和速度。同时,Inspose(Shi et al.,2021)设计了基于实例感知的动态网络,以自适应地调整每个实例的部分网络参数。然而,这些一个阶段的方法仍然需要NMS来去除后处理阶段的重复数据。为了进一步去除这些手工制作的组件,PETR(Shi et al.,2022)将姿态估计视为一个层次集预测问题,并随着DETR的出现提出了第一个完全端到端姿态估计框架(Carion等人,2020)。
DETR(Carionetal.,2020)首次通过使用基于集合的全局损失,以端到端方式执行目标检测,通过二部匹配和变压器编码器-解码器架构,直接强制执行唯一的预测。它将目标检测简化为一个直接集预测问题,去掉了多个手工设计的组件和先验知识。由于DETR及其品种的有效性(例如,变形DETR(Zhu等人,2020)),他们的框架已经被广泛转移到许多复杂的任务中,如用于分割的面具DINO(Li等人,2022b)和PETR(Shi等人,2022)。
采用自顶向下的方法,PRTR(Li等人,2021b)和TFPose(Mao等人,2021a)采用检测变压器来估计裁剪后的单人图像作为基于查询的回归任务。
为了捕获潜在的输出分布并进一步提高回归范式中的性能,Poseur(Mao等人,2022)将残余对数似然估计(RLE)(Li等人,2021a)引入到基于detr的自上而下框架中,实现了基于回归的方法的最新性能。对于单阶段的方式,POET(Stoffl et al.,2021)利用DETR的属性直接回归图像中所有人实例的姿态(而不是边界框)。最近,PETR(Shi et al.,2022)设计了一个完全的端到端范式,使用分层注意解码器,以捕捉姿势和运动学关节之间的关系。
上述所有方法都利用了检测变压器,密集回归一组姿态(仅局部关系)。然而,他们忽略了在姿态估计中引入显式盒检测来很好地建模全局和局部依赖关系的重要性。
All the aforementioned methods take advantage of Detection Transformers and densely regress a set of poses (only local relations). However, they ignore the importance of introducing explicit box detection in pose estimation to model both global and local dependencies well.
长期以来,两阶段范式主导着多人姿态估计的主流方法。它通常可以分为自上而下的方法和自下而上的方法。自上而下(TD)方法(Xiao et al.,2018;Sun et al.,2019;Mao et al.,2022)将任务分解为使用对象检测器(例如,Mask RCNN(He et al.,2017))从全局(人级)依赖关系中检测和裁剪图像中的每个人,然后通过另一个模型进行单人姿态估计。他们专注于局部(关键点级)关系建模并提高单人姿态估计的准确性。然而,这些方法仍然存在 1) 的问题。严重依赖人体检测器的性能,2)额外的人体检测和 RoI 操作的冗余计算成本,以及 3)人体检测器和相应的姿势估计器的单独训练。
相反,自下而上 (BU) 方法 (Cao 等人,2017 年;Newell 等人,2017 年;Cheng 等人,2020 年) 首先以与实例无关的方式检测所有关键点。接下来,他们采用启发式分组算法将属于同一个人的检测到的关键点关联起来,从而提高效率。即便如此,复杂的分组方案使自下而上的方法难以处理严重遮挡和多人尺度,导致性能较差。更重要的是,它们都遭受全局和局部特征之间不可微分优化的影响,这是不可感知的。
直观地看,单阶段方法可以缓解上述问题,因为所有模块都可以以端到端的方式进行优化,并平衡有效性和效率。 有趣的是,最近基于 DETR 的自上而下方法 Poseur (Mao et al., 2022) 尝试将其直接应用于单阶段框架,并发现其性能显著下降。这可能是使用共享编码器的全局和局部依赖学习之间的优化冲突。因此,如何有效地设计一个单阶段框架仍然具有挑战性和值得怀疑。
就现有的基于 DETR 的方法而言,它们中的大多数仍然采用自上而下的框架,并通过将其视为序列预测问题来改进第二个单人姿势估计(Mao et al.,2021b;Shi et al.,2021)。PETR 是第一个使整个管道端到端而无需任何后处理的工作。然而,现有的方法仍然存在一些局限性。首先,它们都只利用局部依赖关系来回归关键点。通过姿势查询直接回归每个人的关键点在语义上是模糊的,因为自下而上的策略是从原始图像而不是从裁剪图像中找到所有关键点。其次,上述方法中提出的姿势或关键点查询是随机初始化的,没有利用先前提取的特征,这使得训练阶段缓慢且无效。第三,关键点表示作为一个点在从编码特征查询时缺乏上下文信息,导致特征错位。
最后,全局到全局、全局到局部和局部到局部之间的相互作用非常复杂,尤其是在人群场景中。当前的模型并没有注意处理这些复杂的关系。在本文中,我们尝试通过在单阶段过程中使用统一的框表示和回归损失来解决上述问题。
EDPose取得了非常好的性能突破,打破了单阶段方法在开源数据集上的精度。