目标检测综述-----深度学习用于目标检测的近期进展 introduction(二)

论文题目:Recent Advances in Deep Learning for Object Detection
论文地址:
二.问题设定
  在本节中,我们提出了基于深度学习的目标检测的正规的问题设置。目标检测包括识别和定位任务。一个目标检测器需要通过精确的定位和对每个物体实例的正确的分类标签预测从图像中区分背景和特定目标类的物体。预测边界框或像素掩码来定位这些目标物体实例。
  更正式一点,假设我们有N张标注图像的集合 { x 1 , x 2 , . . . , x N } \left \{ x_{1},x_{2},...,x_{N} \right \} {x1,x2,...,xN},并且对第i个图象 x i x_{i} xi来说,共标注了 M i M_{i} Mi个物体属于C类: y i = { ( c 1 i , b 1 i ) , ( c 2 i , b 2 i ) , . . . , ( c M i i , b M i i ) }   ( 1 ) y_{i}=\left\{(c_{1}^{i},b_{1}^i),(c_{2}^{i},b_{2}^i),...,(c_{M_{i}}^{i},b_{M_{i}}^i)\right\} (1) yi={(c1i,b1i),(c2i,b2i),...,(cMii,bMii)} (1) c j i ( c j i ϵ C ) c_j^i\left ( c_j^i\epsilon C \right ) cji(cjiϵC) b j i b_j^i bji(物体的边界框或者像素掩码)分别表示着第i个图像中第j个物体的种类和空间标签.检测器 f f f θ \theta θ为参数.对 x i x_i xi,预测值 y r e d i y_{red}^i yredi和真实值 y i y_i yi有着相同的形式. y i = { ( c p r e d 1 i , b p r e d 1 i ) , ( c p r e d 2 i , b p r e d 2 i ) , . . . }   ( 2 ) y_{i}=\left\{(c_{pred_1}^{i},b_{pred_1}^i),(c_{pred_2}^{i},b_{pred_2}^i),...\right\} (2) yi={(cpred1i,bpred1i),(cpred2i,bpred2i),...} (2)
  最后,用来优化探测器的损失函数 l l l表示为: l ( x , θ ) = 1 N ∑ i = 1 N l ( y p r e d i , x i , y i ; θ ) + λ 2 ∥ θ ∥ 2 2     ( 3 ) l(x,\theta)=\frac{1}{N} \sum_{i=1}^Nl(y_{pred}^i,x_i,y_i;\theta)+\frac{\lambda }{2}\left \| \theta \right \|_2^2  (3) l(x,θ)=N1i=1Nl(ypredi,xi,yi;θ)+2λθ22  (3)
  第二项是一个正则项,对参数 λ \lambda λ取折中.不同的损失函数像softmax损失和focal损失影响着最终的检测性能,我们将在第四节讨论这些性能.
  在检测阶段,利用物体真实值和预测值间的交并比(IoU)来评价定位的质量(省略指数i) I o U ( b p r e d , b g t ) = A r e a ( b p r e d ⋂ b g t ) A r e a ( b p r e d ⋃ b g t )     ( 4 ) IoU(b_{pred},b_{gt})=\frac{Area(b_{pred}\bigcap b_{gt})}{Area(b_{pred}\bigcup b_{gt})}   (4) IoU(bpred,bgt)=Area(bpredbgt)Area(bpredbgt)  (4)
   b g t b_{gt} bgt表示边界框或者掩码的真实值.设定IoU的阈值 Ω \Omega Ω来决定一个预测值是否紧紧的覆盖了物体. ( I o U ≥ Ω ) (IoU\geq \Omega) (IoUΩ);通常研究人员设置 Ω = 0.5 \Omega=0.5 Ω=0.5.对于目标检测,将正确的分类标签和位置信息的预测被视为positive预测,否则被视为negtive预测. P r e d i c t i o n = { P o s i t i v e c p r e d = c g t a n d I o U ( b p r e d , b g t ) > Ω N e g t i v e o t h e r w i s e } ( 5 ) Prediction=\begin{Bmatrix} Positive \quad c_{pred}=c_{gt}and IoU(b_{pred,b_{gt}})> \Omega \\Negtive \quad otherwise \end{Bmatrix} (5) Prediction={Positivecpred=cgtandIoU(bpred,bgt)>ΩNegtiveotherwise}(5)
一般的目标检测问使用在C种分类上的平均精确度mAP)进行评估,而在像行人检测之类的真实世界场景里会使用不同的指标,这些将在第五节被讨论。除了检测精确度,检测速度也是衡量目标检测算法的一个重要指标。特别的是,如果希望在视频序列里检测物体(实时监测),检测器必须能够迅速的处理信息。因此,检测效率用**帧率(FPS)**来衡量,每秒钟可以处理多少张图象。通常一个检测器如果能够以20的帧率进行预测,则被认为是一个实时的检测器。
三、检测组成
  在这部分,我们介绍目标检测的不同组成部分。首先是目标检测模型的选择,我们首先介绍两种检测背景的概念:边界框级和掩码级的算法。之后,我们介绍两种主要的目标检测框架。在这些框架之下,检测器使用不同的深度学习骨架结构,候选框生成方法,和特征代表方法。
3.1检测设定
  目标检测有两种背景,i)普通的目标检测(边界框定位)和ii)实例分割(像素级或掩码级定位)普通的目标检测已经被广泛的研究并且被视为传统的检测设定,目标是通过矩形的边界框定位物体.在普通的目标检测算法里,只需要边界框的标注,检测时,计算预测边界框和真实值之间的IoU来衡量性能,实例分割是相对新割需要通过像素级的掩码而非粗略的矩形边界框来分割每个物体,由于更精确的像素级预测,实例分割对空间的不匹配更敏感,并且因此对处理空间信息有着更搞得要求.实例分割的评价指标几乎和边框级的检测是相同的,除了Iou计算是在掩码上计算的,尽管这两种检测设定如此不同,之后会介绍到的主要组成大多数可以共享.
  3.2检测框架
  最近的先进的使用深度学习的目标检测探测器可以主要被分为两种类型:两步检测器和一步检测器。对于一个两步检测器而言,在第一步,生成稀疏的候选框;在第二阶段,生成的候选框的特征向量由深度卷积神经网络编码,然后进行对象类预测。一个一步的探测器没有一个单独的候选框生成的步骤,他们将图像上的每一个位置都视作一潜在的物体,并且试着去判断每一个感兴趣区域是背景或是目标物体,两步的检测器通常在许多公共的基准数据集上表现出最先进的性能,然而,就判断度而言,它们是落后的。一步的检测器更快也更适合应用在实时的目标检测上,但是和两部的检测器相比相对性能更差。
  3.2.1两步的检测器
  两步的检测器将检测任务分为两步:(i)生成候选框和(ii)对这些候选框进行预测。在候选框生成阶段,探测器将会尝试在图像中分辨可能是物体的区域。该想法是提出具有高召回率的区域,使得图像中的所有对象属于这些提出的区域中的至少一个。 在第二步,使用一个基于深度学习的辨别这些候选框的正确分类标签。这个区域可能是背景或者是一个预先定义好的类别的物体。另外,这个模型可以修正原始的候选框的位置,接下来,我们回顾一些最有影响力的两步的检测器。

你可能感兴趣的:(深度学习,目标检测)