论文了解-3D human pose estimation in video with temporal-conv

前言

本文是2019年的CVPR,内容主要是视频中的姿态估计。本文的主要思想是:2D姿态估计+视频中的时序信息=3D姿态估计。且效果好于同时期所有的3D姿态估计模型。

技术理解

开始先放出网络结构。采用的是Res-Net的网络结构。需要注意网络的需要是一组2D pose的坐标。
论文了解-3D human pose estimation in video with temporal-conv_第1张图片
这里我主要说一下该文中用到的重要方法,网络结构不进行讲述。

模型思想
2D到3D,3D到2D。预测出的2D坐标转化为3D坐标后,再将预测的3D坐标反映射为2D坐标,用映射后的2D坐标与转化前的2D坐标进行比较。

如何3d到2d

1.时序信息

因为一个2D点对应多个3D点,因此需要利用时序信息来帮助区分这些3D的坐标点。这里采用的是空洞卷积。因为阅读论文发现空洞卷积经常被使用到,这里用两张图帮助理解什么是空洞卷积。

普通卷积:
论文了解-3D human pose estimation in video with temporal-conv_第2张图片
空洞卷积:
论文了解-3D human pose estimation in video with temporal-conv_第3张图片

使用空洞卷积能处理需要的过去和未来帧的信息。同时还能降低预测后视频的抖动,增加视频的丝滑性。如下图:
论文了解-3D human pose estimation in video with temporal-conv_第4张图片

但在实践中只能使用过去帧的信息。(实际运用时是使用训练好的参数,还是在实际过程中进行训练)
论文了解-3D human pose estimation in video with temporal-conv_第5张图片

半监督
模型中用了半监督方法来加强监督学习。

输入数据中包含有标签数据和无标签数据。
数据中的无标记数据计算出3d坐标后,将3d坐标反映射为2d坐标,将这个2d坐标与输入的2d坐标计算loss值,将这个loss值加入到总的loss值中计算。
而有标记的数据使用标签进行计算。
论文了解-3D human pose estimation in video with temporal-conv_第6张图片

骨架长度(Bone length L2 loss)
也就是各关键点间的距离。
根据我的理解是为了更好的确定空间位置,确定目标距离摄像头的距离、以及避免预测出的骨架出现弯曲、折叠等情况。这个长度的变化越小越好。计算其转化前后骨架长度的loss加入到总loss。

轨迹网络(Trajectory model)

如果只预测目标的坐标,那么预测出的目标始终会位于图像的中心位置。该网络用于确定目标位于空间中的位置。因为轨迹和3d回归的计算会相互影响,所以分为了两个网络。轨迹loss加入到总loss。
另外,我们对于距离摄像头较远的点不太关心它。
预测方式貌似是取髋关节的一个关键点,来观察目标的全局位置。
论文了解-3D human pose estimation in video with temporal-conv_第7张图片

END
论文中提出难点在于预测2dpose,用标签预测3d是简单的(这里的标签是2d的还是3d的,标签预测3d简单那为什么预测2d就不简单。)因此用一个网络预测2d坐标,而不直接使用标签来预测3d。使得模型泛化能力提升。

参考:
https://blog.csdn.net/weixin_45709671/article/details/113819256
https://blog.csdn.net/qq_19784349/article/details/110916773

你可能感兴趣的:(笔记,深度学习,计算机视觉)