实时one-stage目标检测:端到端训练,比YOLO更快但准确度和Faster RCNN相当
预测类别分数和相对于gt box的位置偏移
在不同层级的feature map预测不同宽高比DBox(Default Box,类似于archor),以检测不同形状和宽高比的物体
VGG结构加多层feature map预测,以conv5为例,对feature map的每一个像素点设定不同框宽高比的DBox,预测过程就是预测这些DBox与BBox的位置偏差,以及当前DBox中存在什么样的物体
训练过程的关键是怎么将原图中的BBox与feature map 中的DBox 对应起来并给出相应的位置偏移损失与置信度损失。
在具体操作时,首先将每一个BBOx的坐标归一化到[0,1],然后在不同的feature map上直接与当前同样归一化的DBox相比较即可。
对每一个feature map上的每个cell,都会定义不同大小和宽高比的K个DBox,对于每一个DBox
都预测c+4个值,c为要预测的种类数加一,4表示坐标位置。当预测时,对于一个H*W的feature map,使用3x3的卷积核输出k(c+4)个通道的值,用这些值与对应的BBox进行匹配与计算误差
DBox个数及大小选择:是可调整的超参数,我们对于不同层级的feature map,选择[0.2,0.9]之间等差数列为大小size,因为后面的feature map 更倾向于预测大的物体;我们选择6个宽高比为{1,2,3,1/2,1/3}的Box以及 s = s ∗ s + 1 s= \sqrt{s*s+1} s=s∗s+1 作为DBox的宽高
DBox坐标的设置:若当前特征图为[H,W],我们设置每一个[i,j]处DBox的中心为 ( i + 0.5 H , j + 0.5 W ) ( \frac{i+0.5}{H},\frac{j+0.5}{W}) (Hi+0.5,Wj+0.5)
其实这些DBox设置都是根据只管来的,也可以设置更好的DBox
现在我们在每一个feature map上都得到了一堆DBox,BBox,下面讲解怎么将其进行匹配:
对每一个DBox,只要其IOU与一个BBOx超过0.5(且是最大IOU的BBox),我们将其配对,这样一个BBox可能与多个DBox进行配对,其余的分为负样本
原文中网络是根据VGG16的模型参数进行训练,使用一直到conv5_3的参数,将原文中pool5层改为size3,stride1的卷积,然后使用空洞卷积来适应之后的维数,其中conv6和conv7的参数分别是从原VGG16中fc6和fc7的参数中采样而来,(暂时还不知道为什么这么做)
Loss分为置信度损失(softmax)和位置损失(smoothL1), x i j p = 1 x_{ij}^p=1 xijp=1表明第i个DBox与第j个BBox匹配成功且类别为p。N为正样本的数目。则:
L ( x , c , l , g ) = 1 N ( L c o n f ( x , c ) + α L l o c ( x , l , g ) ) L(x,c,l,g) = \frac{1}{N}(L_{conf}(x,c) + \alpha L_{loc}(x,l,g)) L(x,c,l,g)=N1(Lconf(x,c)+αLloc(x,l,g))
由于一个图片中的目标很少,会导致负样本比较多,从而带来类别不平衡问题,我们将负样本按照其置信度损失排序,选择损失较高的一些作为实际的负样本,一般来说:负:正=3:1
每一个新图像的大小为[0.1,1],宽高比为[0.5,2],采样后对图像块进行resize,以0.5概率进行左右翻转,然后应用一般的图像像素级别变形。
我们对一张图片预测出的框以置信度损失阈值(0.01)进行筛选,然后进行非极大值抑制来得到结果