目标分割part1

图像分割

CV三大任务:图像分类、目标检测、目标分割
【1】普通分割:将不同分属不同物体的像素区域分开
【2】语义分割:分类出每一块区域的语义(这块区域是什么东西)
【3】实例分割:给每个物体编号,personA、personB


数据集:
Pascal VOC
MS COCO


FCN

2014年提出(论文Fully Convolutional Networks for Semantic Segmentation);
用于图像语义分割,将图像级别的分类扩展到像素级别的分类

直观查看网络结构

FCN详解

CNN与FCN
【1】通常cnn网络在卷积之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成为一个固定长度的特征向量。一般的CNN结构适用于图像级别的分类和回归任务,因为它们最后都期望得到输入图像的分类的概率,
【2】FCN对图像进行像素级的分类,从而解决了语义级别的图像分割问题;与经典的CNN在卷积层使用全连接层得到固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的特征图(feature map)进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每一个像素都产生一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图进行逐像素的分类。全卷积网络(FCN)是从抽象的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类
【3】FCN将传统CNN中的全连接层转化成一个个的卷积层;在传统的CNN网络中,前5层是卷积层,第6和第7层分别是长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000中类别的概率;FCN将最后这三层替换为全卷积层,卷积核的大小(通道数,宽,高)分别是(4096,7,7,)(4096,1,1)、(1000,1,1)
目标分割part1_第1张图片
【4】总之:FCN与CNN的区别在于FCN把CNN最后的全连接层换成卷积层,输出一张已经label好的图。

基本架构:
FCN可以接受任意尺寸的输入图像,采用转置卷积层对最后一个卷积层的feature map进行上采样,使它恢复到输入图像相同的尺寸,可以对每个像素都产生一个预测,同时保留输入图像中的空间信息,最后在上采样的特征图中进行逐像素分类;深度为:20个种类+1个背景=21
目标分割part1_第2张图片
逐像素分类
目标分割part1_第3张图片经过多次的卷积和池化之后,图像变得越来越小,像素分辨率越来越低, H/32∗W/32是最小的一层,所产生图叫做heatmap热图,热图就是我们最重要的高维特征图。
最后对原图像进行upsampling,把图像进行放大到原图像的大小。

优点:
FCN能够end-to-end, pixels-to-pixels,相比于传统的基于cnn做分割的网络更加高效,因为避免了由于使用像素块而带来的重复存储和计算卷积的问题。

  • 不含全连接层(fc)的全卷积(fully conv)网络。可适应任意尺寸输入。

  • 增大数据尺寸的反卷积(deconv)层。能够输出精细的结果。

  • 结合不同深度层结果的跳级(skip)结构。同时确保鲁棒性和精确性
    缺点:

1、 是得到的结果还是不够精细。进行8倍上采样虽然比32倍的效果好了很多,但是上采样的结果还是比较模糊和平滑,对图像中的细节不敏感。

2、 是对各个像素进行分类,没有充分考虑像素与像素之间的关系。忽略了在通常的基于像素分类的分割方法中使用的空间规整(spatial regularization)步骤,缺乏空间一致性。

skip结构
目标分割part1_第4张图片

目标分割的标注软件:labelme

你可能感兴趣的:(日常学习)