【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach

阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach

论文的主要创新点

物体发生旋转的时候,简单的 box 的表述通常会产生极大的损失,这实际上就是表述本身存在的缺陷。SiamMask直接预测物体的 mask。这种表述使得我们可以得到最为准确的 box。下面这个事例可以直观的看出这三种算法的区别(左中右分别是SiamFC | SiamRPN | SiamMask)。

论文和代码下载地址

  • SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
    “Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code]

作者解读

CVPR 2019:中科院、牛津等提出SiamMask网络,视频跟踪最高精度

技术演进路线

Object Tracking
based on Correlation Filter\例如ECO
based on Deep Learning
based on Deep Feature+ Correlation Filter\例如MDNet
based on Siamese Network\例如SiamFC
SiamRPN
SiamMask

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第1张图片

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第2张图片

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第3张图片

  • ECO: Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg. “ECO: Efficient Convolution Operators for Tracking.” CVPR (2017). [paper][supp][project][github]

  • MDNet: Nam, Hyeonseob, and Bohyung Han.
    “Learning Multi-Domain Convolutional Neural Networks for Visual Tracking.” CVPR (2016). [paper] [VOT_presentation] [project] [github]

  • SiamFC: Luca Bertinetto, Jack Valmadre, Jo茫o F. Henriques, Andrea Vedaldi, Philip H.S. Torr.
    “Fully-Convolutional Siamese Networks for Object Tracking.” ECCV workshop (2016). [paper] [project] [matlab代码-github][TensorFlow 代码及注解]

  • SiamRPN: Bo Li, Wei Wu, Zheng Zhu, Junjie Yan.
    “High Performance Visual Tracking with Siamese Region Proposal Network.” CVPR (2018 Spotlight). [paper][论文阅读笔记1][论文阅读笔记2] [论文介绍] [大话目标检测经典模型(RCNN、Fast RCNN、Faster RCNN)]

  • SiamMask: Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr.
    “Fast Online Object Tracking and Segmentation: A Unifying Approach.” CVPR (2019). [paper] [project] [code]

  • 孪生神经网络: 孪生神经网络的简介

算法详解

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第4张图片

详情参考:https://blog.csdn.net/qq_37392244/article/details/88569554
一、RoW的意义

用ResNet-50前面4个卷积层作为f(θ) 的主干部分,网络结构如下图所示。通过卷积神经网络的处理,各自得到不同大小的256张图。RoW表示的是上面得到的两张图经过depth-wise(深度卷积)方式处理过后的每一个候选窗口的响应,维度是11256,一共有17*17个RoW。

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第5张图片

二、如何得到mask

对于每一个RoW,用两层的网络h∅去预测出wh个二值掩码mask,经过处理得到1717个6363大小的分割(对应于1717个RoW)。如下面公式所示,mn 表示对于第n个RoW经过h∅ 处理之后的mask。给定不同的z,网络会得到不同的分割。
在这里插入图片描述

由网络结构图可以看到,每一个RoW对应生成的mask是一个11(63*63)的向量,我们将其展平,得到的mask图像是非常粗糙的,而且尺寸也小于原图。因此,后面其实还有一个上采样和调整的过程,文中说为了简洁性,没有在图中画出,而是放到了不中材料里面。如下图所示:

【阅读笔记】【CVPR2019】【SiamMask】Fast Online Object Tracking and Segmentation: A Unifying Approach_第6张图片
网络结构是一个u-shape的结构,结合了backbone的feature map,进行上采样得到了更加精细的分割结果。
详细介绍可以参考:https://blog.csdn.net/hey_youngman/article/details/88751952

为了更精细的分割,SiamMask借鉴了下面这个参考文件中的思路。
[50] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learn- ´
ing to refine object segments. In European Conference on
Computer Vision, 2016. 4, 7, 9 [paper] [code] [论文阅读笔记]

你可能感兴趣的:(机器学习)