这是一篇语言严谨优美,结构分明清晰,内容充实丰富的文章,特别值得一看。
题目:A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance
摘要:人的重识别得到高度关注,但是车辆作为一个重要目标却被计算机视觉领域忽略。大部分现有的车辆重识别方法实现了有限的表现,因为这些方法普遍只关注到车辆的外观特征而忽略了车辆的一些身份信息,比如车牌号。这篇文章中,我们提出了一种新型的基于深度学习方法的渐进式车辆重识别模型,简称“PROVID”。我们的方法将车辆重识别看作两个特定的渐进的搜索过程:在特征方面由粗到细的搜索,现实世界监控中由近及远的搜索。第一个搜索过程使用粗提取过滤器筛选车辆的外观特征,然后应用孪生卷积网络实现对车牌号的验证来准确的判断车辆。由近及远的搜索过程很像人类的重识别过程,依靠最近的摄像头和最近的时间信息来判断。此外,为了促进渐进式车辆重识别的研究,我们收集了最新的大规模数据集VeRi-776,数据集来自大规模城市监控视频,不仅包含大量各种各样特征的车辆图片,而且图片具有高分辨率,还具有足够的车牌号和时空信息标签。VeRi-776数据集显示了我们的方法较目前最新的方法更为优秀,mAP提高了9.28%。
1.引言
车辆作为城市视频监控中的重要对象,在计算机视觉研究领域吸引了大量关注,如检测,分类和姿态估计。然而,车辆重新识别(Re-Id)仍然是一个前沿但重要的话题,经常被研究人员忽视。 在给定探测车辆图像的情况下,车辆重识别的任务是在数据库中搜索包含由多个摄像机捕获的相同车辆的图像。车辆重识别在视频监控,智能交通和城市计算方面具有普遍应用,可以在大型监控视频中快速发现,定位和跟踪目标车辆。
与车辆检测,跟踪或分类不同,车辆Re-Id可以被发现为实例级对象搜索问题。在现实世界的车辆Re-Id中,这个问题可以通过渐进过程来处理。例如,如果监控想要在大量监控视频中找到可疑车辆,他们将首先通过外观特征(例如颜色,形状和类型)过滤掉大量车辆,以缩小搜索空间。然后,对于其余车辆,利用牌照来准确识别嫌疑人,如图1(b)所示。此外,搜索范围从近摄像机扩展到遥远,搜索周期从近距离延伸到远处。因此,时空信息也可以提供很大的帮助,如图2所示。现实世界的实践激励我们构建一个渐进式车辆Re-Id方法,其中包括两个渐进式搜索过程:(1)从粗 - 到 - 精细搜索特征空间; (2)在现实世界的时空环境中从近到远的搜索。
然而,在现实世界城市交通监控中实施渐进式车辆Re-Id方法仍然面临着几个重大挑战:首先,基于外观的方法由于同一车辆的大量实例差异而难以得出最佳结果。不同的摄像机,以及相同视图中不同车辆之间的细微的实例间差异,如图1(a)所示。此外,传统的车牌识别技术可能由于各种照明,视点和分辨率而在无约束的监视场景中失败,如图1(b)所示。此外,车牌识别是一个复杂的多步骤过程,包括板检测,分割,形状调整和字符识别,如[7,8]。如何在无约束的交通场景中有效和高效地利用车牌信息仍然是极具挑战性的。最后,在城市监控场景中,很难在不受约束的条件下对车辆行为模式进行建模。交通状况,路线图和天气会影响车辆的路线。时空线索的利用也仍然具有挑战性。
用于车辆Re-Id的现有方法主要关注基于外观的模型。 然而,这些方法不能区分具有相似外观的车辆而忽略车牌以唯一地识别车辆。 与这些方法不同,我们从粗到精的方式考虑外观特征和车牌。 基于外观的模型首先过滤掉不同的车辆,然后使用车牌进行准确的车辆搜索。 此外,大多数方法都没有考虑时空信息来寻求帮助。 时空关系已被用于许多领域,例如多摄像机监视,交叉摄像机跟踪和对象检索。 利用监控网络中的时空信息,我们可以在时间尺度和空间尺度上以近似到近距离的原则处理搜索过程。
在本文中,我们提出了PROVID,这是一种基于深度学习的渐进式车辆Re-Id方法,用于城市监控,具有以下特性:(1)采用渐进式方法搜索车辆,如同在现实世界中一样; (2)从深度卷积神经网络(CNNs)学习的外观属性模型被用作粗车辆滤波器; (3)提出基于孪生神经网络的车牌验证,以匹配车牌图像; (4)探索时空关系以协助搜索过程。特别是对于基于外观的粗滤波,我们采用低级和高级特征的融合模型来寻找类似的车辆。对于车牌号,我们只需要验证两个车牌图像是否属于同一车辆,而不是准确识别车牌字符。因此,使用大量平板图像训练连体神经网络以进行车牌验证。最后,利用时空关系模型对车辆进行重新排序,以进一步改善车辆Re-Id的最终结果。
为了便于研究和验证相关算法,我们构建了一个名为VeRi-776的综合车辆Re-Id数据集,其中不仅包含具有不同属性和高复发率的大型车辆,而且还包含足够的车牌和时空标签,这可以极大地方便 基于车牌和时空信息的渐进式车辆Re-Id方法的研究。 最后,我们评估了VeRi-776上的PROVID,以证明所提出的框架的有效性,该框架的性能优于最先进的方法,实现了mAP的9.28%和HIT @ 1的10.94%。
2.相关工作
主要就介绍了上面所说的3方面
车辆重新识别。
近年来,车辆Re-Id仍处于早期阶段,其中包括一些相关的作品。 费里斯等人。 [1]提出了一种车辆检测和检索系统,其中车辆按外观分为不同的类型和颜色,然后在数据库中通过这些属性进行索引和搜索。最近,Liu等人。 [9]首先评估和分析了几种基于外观的模型,包括纹理,颜色和语义属性,然后提出了车辆Re-Id的低级特征和高级语义属性的融合模型。 然而,由于车辆的相似性和诸如照明,视点和遮挡的各种环境因素,基于外观的方法不能唯一地识别车辆。 更重要的是,作为每辆车的唯一ID,车牌应考虑准确的车辆Re-Id。
车牌验证。
在工业中,车牌识别已被广泛用于识别车辆[7,8]。然而,由于对板图像质量的高要求,现有方法只能用于诸如公园入口和收费站之类的约束条件。由于各种环境因素,车牌识别可能在无约束的监视场景中失败[1,9]。因此,我们使用车牌验证而不是车辆Re-Id的识别。近年来,深度神经网络在计算机视觉方面取得了巨大成功,如对象分类[13],检测[14],图像理解[15],视频分析[16]和多媒体搜索[17]。其中,提出了连体神经网络(SNN)来验证Bromley等人的手写签名。 [18]。 SNN采用两个权重共享的卷积神经网络和一个对比度损失函数。在训练期间,它可以同时最小化相似物体对的距离并最大化不同对的距离。 Chopra等。 [19]采用SNN进行人脸验证,取得了很好的效果。张等人。 [20]实现了SNN人识别步态识别的最佳性能。因此,我们在车牌验证中使用SNN来获得准确的车辆Re-Id。
时空关系。
时空关系已广泛应用于多相机系统[10-12]。 其中,Kettnaker等。 [10]提出使用相机的贝叶斯估计来组装可能的物体路径。 Javed等人。 [11]利用时空信息来估计物体跟踪的相机间对应关系。 徐等人。 [12]提出了一种分布式摄像机网络中基于图形的对象检索系统。 然而,这些方法主要集中在缓慢移动的物体上,例如校园等受限环境中的人。 在大规模无约束的交通场景中,由于复杂的交通状况,路线图和天气,很难对车辆的模式进行建模。
3.提出的方法
3.1 总览
图3显示了所提出的渐进式车辆Re-Id方法的架构。 该查询包含车辆的图像,其中包含摄像机ID和时间戳,用于记录捕获的位置和时间。 给定查询,所提出的方法将车辆Re-Id的任务视为渐进过程:(1)基于外观的粗过滤:基于外观的模型用于过滤掉具有不同颜色,纹理,形状和类型的大多数车辆 在车辆数据库中; (2)基于车牌的精细搜索:对于剩余的过滤车辆,通过Siamese神经网络计算查询和源车辆之间的车牌相似性,以找到最相似的车辆; (3)基于拟近距离原理,利用时空特性对车辆进行重新排序,进一步改善车辆搜索过程。
3.2依靠CNN进行外观特征提取
在现实世界的实践中,诸如颜色,形状和类型的外观特征对于过滤掉不同的车辆非常有效。 此外,它们可以在大规模数据集中进行提取和搜索。 因此,我们采用了由Liu等人评估的纹理,颜色和语义属性的融合模型。 [9]作为粗略过滤器,找到与查询外观相似的车辆。
纹理特征由常规描述符表示,例如尺度不变特征变换(SIFT)[21]。 然后描述符由词袋(BOW)模型编码,因为它在图像检索中的准确性和效率[22]。 颜色特征由颜色名称(CN)模型[23]提取,该模型由BOW模型量化,因为其在人Re-Id中具有优异的性能[24]。 高级属性由深度卷积神经网络(CNN)学习,即GoogLeNet [25]。 该模型在CompCars数据集[2]上进行了微调,以检测车辆的详细属性,例如车门数量,车灯形状,座椅数量和车辆型号。 最后,通过距离级融合将三种类型的特征集成在一起。
通过融合纹理,颜色和语义属性,基于外观的方法可以筛选出大多数具有不同颜色,形状和类型的车辆。 因此,搜索空间从整个车辆数据库缩小到相对少量的车辆。 然而,由于车辆的相似性和环境因素,基于外观的模型不能唯一地识别车辆。 因此,我们利用车牌(车辆的唯一ID)来获得准确的车辆Re-Id。
3.3.基于孪生网络的车牌号识别
对于准确的车辆搜索,车牌是一个重要的提示,因为它是车辆的唯一ID。在无约束的监视场景中,由于视点,低照度和图像模糊,可能无法正确识别牌照,如图1(b)所示。此外,车牌识别技术是一个复杂的过程,包括板定位,形状调整,字符分割和字符识别。因此,对于车辆Re-Id任务而言,它是无效的。尽管如此,在车辆Re-Id中,我们只需要验证两个板是否相同而不是识别字符。[18]中引入的孪生神经网络(SNN)用于签名验证任务。 SNN的主要思想是学习将输入模式映射到潜在空间的函数,其中相似度量对于相同对象的对是大的,对于来自不同对的对很小。因此,它最适合于类的数量很大的验证场景,和/或在训练期间所有类的样本都不可用。当然,车牌验证就是其中一种情况。
设计用于板验证的SNN包含两个并行的CNN,如图4所示。每个CNN堆叠有两个部分:(1)两个卷积层和最大池层,以及(2)三个完整连接层。 对比度损失层连接在输出层的顶部。 网络参数设置如图4所示。在训练之前,两个牌照图像被配对作为训练样本,如果它们属于同一车辆则标记为1,否则标记为0。 在训练期间,成对的板图像被分别馈送到两个CNN中。 在前向传播之后,CNN的输出被组合到对比损失层中以计算模型的损失。 然后通过具有对比损失的反向传播,同时优化两个CNN的共享权重。
3.4 基于时空相关关系的车辆载排序
正如第一部分中所讨论的。 如图1所示,在现实世界的实践中,在时空域中以近似到远的方式进行车辆搜索是合理的。 基于这一原理,我们利用时空关系进一步改进车辆Re-Id。
然而,在无约束的交通情景中,很难对车辆的旅行模型进行建模并预测两辆任意车辆的时空关系。 为了研究时空关系是否对车辆Re-Id有效,我们分析了来自相同车辆的20,000个图像对和来自随机选择的车辆的20,000个对的空间和时间距离。 统计数据如图5所示。我们发现相同车辆的空间和时间距离相对小于随机选择的车辆。 根据这一观察,我们作出一般假设:如果两个图像具有较小的空间或时间距离,则它们具有较高的可能性为同一车辆,并且如果它们具有较大的空间或时间距离,则较低的可能性为同一车辆。 利用该假设,对于每个查询图像i和测试图像j,时空相似性ST(i,j)被定义为:
其中Ti和Tj是查询图像i和测试图像j的时间戳,Tmax是所有查询图像和测试轨迹之间的最大时间差。 δ(Ci,Cj)是摄像机Ci和Cj之间的最短路径的长度,Dmax是所有摄像机之间的最大长度。 两个摄像机之间的最短路径从Google Map获得并存储在矩阵中,如图6所示。最后,可以采用融合后策略或重新排序策略来组合时空信息与 外观和板材特征。
4. 实验
4.1 数据集
这里可以参见文章LARGE-SCALE VEHICLE RE-IDENTIFICATION IN URBAN SURVEILLANCE VIDEOS,这篇文章超级详细的介绍了关于数据集制作过程。
4.2 实验设置
这块没啥可说的,就是介绍了评价指标的定义。
4.3 车牌识别效果评价
这里的FACT方法在LARGE-SCALE VEHICLE RE-IDENTIFICATION IN URBAN SURVEILLANCE VIDEOS中有介绍,但是没有找到具体的实现方式和代码。
4.4 车辆重识别方法评价
这里的方法同样参见上述的那篇文章。对于结果分析可以得到一点启示,不要一味说自己的模型的好处,对于失误和不足也可以展示一下,这样显得文章特别有底气,这篇就是。工作量可以说很大,文章内容理论讲的很明白,所以理所当然的自信。
5.结论
在本文中,我们提出了一种基于深度学习的渐进式车辆Re-Id方法,它采用深度CNN提取外观属性作为粗滤波器,并将基于Siamese神经网络的车牌验证作为精细搜索。 此外,研究了实际城市监测中车辆的时空关系,并将其结合到所提出的方法中。 为了促进研究,我们从城市监控视频中构建了最大的车辆Re-Id数据集之一,具有不同的车辆属性,充足的车牌和准确的时空信息。