Paper:https://openaccess.thecvf.com/content_ICCVW_2019/papers/VISDrone/Du_VisDrone-DET2019_The_Vision_Meets_Drone_Object_Detection_in_Image_Challenge_ICCVW_2019_paper.pdf
具体文献见原论文
Paper link: https://openaccess.thecvf.com/content_ICCVW_2019/papers/VISDrone/Hong_Patch-Level_Augmentation_for_Object_Detection_in_Aerial_Images_ICCVW_2019_paper.pdf
ACM-OD是在Faster RCNN的基础上加伤FPN,backbone为ResNet-101(在MS COCO数据集上预训练)。
特点:augmented chip mining
As the first step, to efficiently localize small objects, we train our model from chip areas [35],i.e., sub-region in which ground truth samples are located densely.就是使用chip先训练一遍我们的模型
然后使用patch-level augmentation缓解类别不平衡和high false positive rate(误检)。并使用增强后的数据集再次训练我们的模型
除了使用图像增强外,还需要考虑改变Visdrone数据集的尺度和纵横比。
Masking “ignored regions” or “others” objects during training also helped to improve performance.(Masking ignore regions和others object有助于准确度的提升)
Furthermore, the post-processing steps including box voting [12] are helpful for accurate localization(一种精确定位!!!)
(Box Voting)是一种在目标检测任务中常用的后处理技术,其主要目的是提高检测结果的准确性。具体来说,它是一种集成方法,将多个预测的边界框(Bounding Box)合并为一个最终的边界框。
这种方法的基本思想是:如果多个预测的边界框的位置非常接近或重叠,那么可以认为这些预测是对同一个目标的多次观察。通过计算这些预测框的“投票”或平均值,可以得到一个最终的,更准确的目标位置。
值得注意的是,不同的盒子投票算法可能具有不同的计算方式和特性。例如,一些方法可能会根据预测的置信度对每个边界框的“投票”进行加权,从而给予置信度较高的预测更大的影响。
Airia-GA-Cascade是基于Guided Anchor的Cascade R-CNN [2]。其目标是获取高质量的对象检测,能够有效地拒绝接近的假阳性。它由一系列以增加的IoU阈值进行端到端训练的检测器组成,以便依次更加选择性地对接近的假阳性进行筛选。前一阶段检测器的输出被转发到后一阶段检测器,检测结果将逐阶段得到改善。网络基于FPN检测器,具有ResNeXt-101-64 × 4d骨干和Guided Anchor [38],同时在骨干中添加了可变形卷积 [51]。
Firstly, two stack hourglass networks, which are pre-trained models for human pose estimation, are adopted for generating the heat maps. Then, three branches convolutional layers are adopted for generating the center points, offsets and height-width for the proposals. Focal loss and L1 label smoothing loss are used for objects classification and regression respectively. Specifically, we set the image size as 1024 × 1024 while training and input the original images without resizing for testing.
ConstraintNet is buit upon a one-stage keypoint-based detector named CenterNet. Our approach detects each object by restricting their width and height, which improves both precision and recall. First, we design a customized modules named constraint corner pooling, which convolution kernel is depending on constrain boundary of each object. Constraint corner pooling play the roles of extracting features around the target rather than the whole image. Second, the prediction box which boundary is greater than constrain boundary will be abandoned. Last, observing that the corner localization accuracy is gradually refined during multi-stage, we adopt a coarse-to-fine supervision strategy in accordance [20]. Overview of ConstrainNet. A covolutional backbone network applies three corners prediction modules to output heatmaps, embeddings and offsets, respectively. Similar to CenterNet, a triplet of corners and the similar embeddings used to detect a potential bounding box. Then the constrain boundary is used to determine the final bounding boxes.
ConstraintNet基于一个名为CenterNet的一阶段关键点检测器构建。我们的方法通过限制每个对象的宽度和高度来检测每个对象,这提高了精确度和召回率。首先,我们设计了一个名为constraint corner pooling的定制模块,其卷积核依赖于每个对象的约束边界。Constraint corner pooling的作用是提取目标周围的特征,而不是整个图像。其次,边界大于约束边界的预测框将被舍弃。最后,观察到在多阶段过程中角点定位精度逐渐精细化,我们采用了一个与之相符的由粗到细的监督策略[20]。ConstraintNet的概述:一个卷积骨干网络应用三个角点预测模块分别输出热图,嵌入和偏移量。类似于CenterNet,一个角点三元组和相似的嵌入被用来检测一个可能的边界框。然后使用约束边界来确定最终的边界框。
DA-RetinaNet is based on the Focal Loss for Dense Object Detection。
DBCL基于"Segmentation Is All You Need" [40],该方法使用弱监督多模态注释分割(WSMA-Seg)来实现准确且鲁棒的目标检测,无需进行非极大值抑制(NMS)。在WSMA-Seg中,提出了多模态注释,使用弱监督边界框实现感知实例的分割;我们还开发了一个基于运行数据的跟踪算法来追踪对象的轮廓。此外,我们提出了一种多尺度池化分割(MSP-Seg)作为WSMA-Seg的底层分割模型,以实现更准确的分割并提高WSMA-Seg的检测准确性。
DCRCNN采用Cascade-RCNN [2]作为基线,并在其基础上构建额外的模块。我们在骨干网络中加入了可变形卷积神经网络和注意力机制。我们使用SyncBN进行批量标准化训练。我们在训练中使用随机裁剪和颜色抖动增强。对于推理,我们集成了训练网络的最佳检查点。我们还在推理中使用TTA和Soft-NMS。
DPN是一个基于Cascade R-CNN [2]的双金字塔网络模型,由图像金字塔和特征金字塔组成。由于网络中的下采样操作,大多数小目标的信息丢失严重。图像金字塔用于生成不同尺度的输入图像,并将每个对象的尺度归一化到一个固定的范围,以减少对最小和最大对象的漏检率。特征金字塔用于生成不同尺度的特征图。多尺度特征融合技术增强了每个层级的特征图的特征。获得的特征金字塔被用作学习图像特征,以在Cascade R-CNN中检测对象。Cascade R-CNN的多阶段边界框回归和分类使得检测结果更加准确。
Based on Cascade-RCNN(mmdetection实现的)
遵循了FPN [25]的思想,其特征提取器是在ImageNet上预训练的ResNet-50和ResNet-101 [14]。
在Backbone中引入了全局上下文模块(GC)==[3 Nonlocal networks meet squeeze-excitation networks and beyond]==和可变性卷积(DC)
为了最大限度地利用数据,训练了多个尺度(对于短边是1000、800、600)的FPN的Cascade-RCNN,以自然地处理各种大小的对象。
将ROIPooing层改为ROIAlign(Mask RCNN)来进行特征量化。
RoIPooling 是在 Faster R-CNN 中首次提出的一种方法,它将感兴趣区域(RoI)划分为固定大小的区域,然后使用最大池化将每个区域转化为一个固定大小的特征图。但是,RoIPooling会引入量化误差,因为RoI 的坐标被量化到了离散的像素网格上,这可能会导致定位不准确。
为了解决这个问题,Mask R-CNN 提出了 RoIAlign 方法。RoIAlign 移除了 RoIPooling 中的严格的量化步骤,它使用双线性插值来获取任意位置的像素值,使得特征和原始 RoI 的空间分布更加接近,从而提高了定位的准确性。
总的来说,RoIAlign 相比 RoIPooling 有更高的定位精度,能够更好地处理小尺度和不规则形状的对象。
就是提高了分辨率
EnDet是由两个基于yolov3 [32]的网络和两个基于faster R-CNN [33]的网络组成的集成模型。首先,我们通过空间金字塔池化(spp)模块修改yolov3网络。具体来说,我们在yolov3的第一个yolo分支网络上添加一个spp模块,得到yolov3-spp1,并在三个yolo分支网络上各添加一个spp模块,得到yolov3-spp3。其次,我们在faster R-CNN中的特征金字塔网络(FPN)添加了残差注意力模块(ra-fpn)。最后,我们通过一个基于图团(clique)的集成方法 [44],结合yolov3-spp1、yolov3-spp3、带有resnet101-fpn主干的faster R-CNN以及带有resnet101-ra-fpn主干的修改版faster R-CNN,构建了EnDet。
ERCNNs is generated by ensemble of the following object detection models: Cascade R-CNN with ResNeXt101, Faster R-CNN with ResNeXt-101, Faster R-CNN with ResNet-50 and deformable convolution, Faster R-CNN with resNet-50 and spatial attention mechanism, Faster R-CNN with ResNet-50, deformable convolution and spatial attention mechanism
ERCNN 由以下对象检测模型的集合生成:具有 ResNeXt101 的 Cascade R-CNN、具有 ResNeXt-101 的 Faster R-CNN、具有 ResNet-50 的 Faster R-CNN 和可变形卷积、具有 resNet-50 的 Faster R-CNN 和空间注意机制,具有 ResNet-50 的 Faster R-CNN、可变形卷积和空间注意机制(一整个模型融合)
源码链接:https://github.com/HRNet
论文:https://arxiv.org/pdf/1908.07919.pdf
该模型通过并行连接高分辨率到低分辨率的卷积,在整个过程中保持高分辨率表示,并通过在并行卷积之间重复进行融合来产生强大的高分辨率表示。
后期将仔细阅读该篇论文
Libra-HBR is an ensemble of improved SNIPER [35], Libra R-CNN [30] and Cascade R-CNN [2].
It is proved to generalize very well in various weather and light conditions in real-world drone images
SNIPER提出了一种在实例级别视觉识别任务中进行有效的多尺度训练的算法。我们将SNIPER中的Faster-RCNN检测框架替换为具有形变的ResNet-101 FPN结构,它引入了对象检测中的额外上下文,并改进了小对象的准确性。
我们使用max-out操作进行分类,以消除由密集小锚点引入的误检的候选框。
我们应用Cascade R-CNN来解决IoU阈值选择问题
MOD-RETINANET是RetinaNet [26]的修改版本,使用ResNet-50作为主干网络。我们已经适应了无人机图像需要的小对象的算法。我们在FPN [25]中增加了额外的TAPs。我们使用添加了额外TAPs的RetinaNet的修改版本来检测小物体。我们通过改变学习率,批量大小,先验盒子(尺寸和步幅)以及改变主干网络以及回归和分类子模型的复杂性,训练了多个模型。
ODAC是基于Faster RCNN [33]和FPN [25]的简单且有效的框架。首先,基于预先训练的目标检测模型的先验知识,我们提出了一种基于困难区域估计网络的自适应裁剪方法,以增强对困难目标的检测,这使得检测模型能够充分利用其性能。其次,我们使用训练良好的自适应区域估计网络生成更多样化和具有代表性的图像,这在增强训练数据方面是有效的。此外,为了缓解训练过程中的不平衡问题,我们在我们的框架中采用了IoU平衡采样方法 [30] 和平衡L1损失 [30] 作为框回归损失。在测试时,我们选择了预测得分最高的前5个困难区域作为最终的困难区域并再次进行测试,然后合并结果。
在Retinanet的基础上进行多尺度训练和测试。
SAMFR-Cascade RCNN使用Cascade R-CNN [2]作为基础网络,通过级联几个检测网络连续优化预测结果。与普通级联不同,Cascade R-CNN的几个检测网络是在由不同IOU阈值确定的正负样本上训练的。在此模型的基础上,我们添加了可形变卷积(DCN)层,该层可以在ground truth的指导下主动学习对象区域,以改变卷积滤波器的采样位置,从而实现对目标位置的更准确的定位,并获得更具代表性的特征。对于高级特征,我们指出神经网络获取的对象中心部分的信息越来越多,但对象的边缘信息对对象定位有很大影响。针对这个问题,我们设计了一种基于注意力机制的新型空间精细化模块,以修复多尺度特征中的边缘细节。同时,下采样在分类任务中表现得很好,但对于对象检测来说,由于缺乏全局位置信息,可能并不一定有利于对象定位,我们提出的RFEB试图解决这个问题。最后,我们采用轮廓检测算法和多模型融合进行后处理
SGE-cascade R-CNN is improved from cascade RCNN [2]. What we change is that we use SGE [21] block and ResNet50 [5] as our backbone. SGE makes each set of features robust and well-distributed over the space, and models a spatial enhance mechanism inside each feature group, by scaling the feature vectors over all the locations with an attention mask.
S+D由两个步骤组成,分割和检测。==在分割步骤中,模型输出低精度热图(比原始图像尺寸小),用于生成可能存在物体的几个区域。==在检测步骤中,使用常规检测模型在从原始图像裁剪出的区域中检测对象。经过这两个主要步骤后,需要进行一些后处理,将区域中的框合并到全图像中。
在第一步中,使用了DeepLab [43]中的ASPP模块来预测图像的类别不敏感热图。像素级分割热图远远超出了低精度区域生成的需要。在ASPP中进行了几个修改,包括减少ASPP模块的分支和最后一个卷积层的输出通道。使用MobileNet v2 [34]作为模型的主干,因为这个步骤对模型的容量需求非常低,而速度在区域生成中也非常重要。分别使用分层聚类和图像形态学方法来处理小区域和大区域。
在第二步中,使用Cascade RCNN [2]与HRNet [36]作为Open MMLab Detection Toolbox的主干作为检测模型,并且没有做任何修改。在每个区域进行检测后,也需要进行NMS,因为区域之间存在重叠。
TridenNet [22] 旨在生成具有统一表示能力的尺度特定特征图。我们使用并行多分支架构,其中每个分支共享相同的转换参数,但具有不同的感受野。然后,我们使用尺度感知训练方案,通过对适当尺度的对象实例进行采样进行训练来专门化每个分支。我们的方法涉及多尺度训练和软nm等其他技术。该模型使用一个 2080Ti GPU 和 SimpleDet [6] 框架进行训练。