VisDrone-DET2019: The Vision Meets Drone Object Detection in Image Challenge Results论文阅读笔记

VisDrone-DET2019: The Vision Meets Drone Object Detection in Image Challenge Results论文阅读笔记

Paper:https://openaccess.thecvf.com/content_ICCVW_2019/papers/VISDrone/Du_VisDrone-DET2019_The_Vision_Meets_Drone_Object_Detection_in_Image_Challenge_ICCVW_2019_paper.pdf

Related Work

  • [26,23,45,2,11,50] Anchor-based
  • [18,19,10,46,17,37] Anchor-free

具体文献见原论文

VisDrone-DET2019: The Vision Meets Drone Object Detection in Image Challenge Results论文阅读笔记_第1张图片

VisDrone-DET2019: The Vision Meets Drone Object Detection in Image Challenge Results论文阅读笔记_第2张图片

A.1. Augmented Chip Mining for Object Detection (ACM-OD)(第三名)

Paper link: https://openaccess.thecvf.com/content_ICCVW_2019/papers/VISDrone/Hong_Patch-Level_Augmentation_for_Object_Detection_in_Aerial_Images_ICCVW_2019_paper.pdf

ACM-OD是在Faster RCNN的基础上加伤FPN,backbone为ResNet-101(在MS COCO数据集上预训练)。

特点:augmented chip mining

  • As the first step, to efficiently localize small objects, we train our model from chip areas [35],i.e., sub-region in which ground truth samples are located densely.就是使用chip先训练一遍我们的模型

  • 然后使用patch-level augmentation缓解类别不平衡和high false positive rate(误检)。并使用增强后的数据集再次训练我们的模型

  • 除了使用图像增强外,还需要考虑改变Visdrone数据集的尺度和纵横比。

  • Masking “ignored regions” or “others” objects during training also helped to improve performance.(Masking ignore regions和others object有助于准确度的提升)

  • Furthermore, the post-processing steps including box voting [12] are helpful for accurate localization(一种精确定位!!!)

(Box Voting)是一种在目标检测任务中常用的后处理技术,其主要目的是提高检测结果的准确性。具体来说,它是一种集成方法,将多个预测的边界框(Bounding Box)合并为一个最终的边界框。

这种方法的基本思想是:如果多个预测的边界框的位置非常接近或重叠,那么可以认为这些预测是对同一个目标的多次观察。通过计算这些预测框的“投票”或平均值,可以得到一个最终的,更准确的目标位置。

值得注意的是,不同的盒子投票算法可能具有不同的计算方式和特性。例如,一些方法可能会根据预测的置信度对每个边界框的“投票”进行加权,从而给予置信度较高的预测更大的影响。

A.2. Guided Anchor based Cascade R-CNN (AiriaGA-Cascade)(第13名)

Airia-GA-Cascade是基于Guided Anchor的Cascade R-CNN [2]。其目标是获取高质量的对象检测,能够有效地拒绝接近的假阳性。它由一系列以增加的IoU阈值进行端到端训练的检测器组成,以便依次更加选择性地对接近的假阳性进行筛选。前一阶段检测器的输出被转发到后一阶段检测器,检测结果将逐阶段得到改善。网络基于FPN检测器,具有ResNeXt-101-64 × 4d骨干和Guided Anchor [38],同时在骨干中添加了可变形卷积 [51]。

A.3. FPN-based Faster R-CNN with Better Training and Testing for Drones (BetterFPN)(第五名)

  • BetterFPN使用了带有ResNet-50的FPN作为Faster RCNN的backbone。使用了了Mask RCNN的预训练模型(在COCO数据集上)。训练期间使用了随机裁剪和水平翻转。
  • we enlarge every patch by 4 times in training, as well as in testing.
  • We use a better crowd region handling in training. We lower the IoU threshold for matching to crowd region (label ignore) when determine an anchor or proposal as negative sample. Also, we do not optimize the score or bounding box regression when an anchor or proposal matching to crowd region

A.4. Modified Cascade R-CNN (Cascade R-CNN+)(第二十五名)

  • Cascade R-CNN+基于Cascade R-CNN [2],which consists of a sequence of detectors trained with increasing IoU thresholds. Thus, the detector becomes sequentially more selective against close false positive detections.
  • Feature Pyramid Network (FPN) [25] 被用作基础检测器,以考虑不同的对象尺度。
  • Backbone采用SEResNeXt-50 [16]。
  • 使用focal loss作为损失函数 [26]。
  • The anchor box priors are halved compared to the default settings of Cascade R-CNN to account for smaller objects
  • 在测试中,切割的图像通过一个大约为1.25的因子进行缩放,从而得到736 × 736像素的切片。

A.5. Deformable Cascade R-CNN (Cascade RCNN++)(第28名)

  • Based on Cascade R-CNN, 使用ResNeXt-101 64x4d作为backbone,FPN作为特征提取器。使用了可变性卷积增强特征提取
  • 训练时包括了多尺度训练和soft-nms后处理方法
  • 没有使用预训练模型,而是直接使用MSCOCO和VisDrone trainset来进行预训练

A.6. Objects as Points (CenterNet)(第十二名)

Firstly, two stack hourglass networks, which are pre-trained models for human pose estimation, are adopted for generating the heat maps. Then, three branches convolutional layers are adopted for generating the center points, offsets and height-width for the proposals. Focal loss and L1 label smoothing loss are used for objects classification and regression respectively. Specifically, we set the image size as 1024 × 1024 while training and input the original images without resizing for testing.

A.7. Objects as Points (CenterNet-Hourglass)(第二十一名)

  • 由于VisDrone数据集中对象数量众多,所以增加了每张图像最大检测物体数量。

A.8. Convolution Neighbor Aggregation Detector for multi-scale detection (CNAnet)(第十名)

  • 使用了Convolution Neighbors Aggregation Detector for multi-scale detection。
  • Specifically, we use the Multi-neighbor layers fusion modules to fuse the current layer with its Multi-neighbor higher layers, we call this process as backward augmentation. Then we forward propagate the enhanced feature to high-level layers, we call this process as forward augmentation

A.9. CenterNet-Hourglass-104 (CN-DhVaSa)(第七名 它的Recall最高)

  • 原于CenterNet
  • 在训练阶段,图像大小调整为1024×1024,批大小设置为8。在推理过程中,利用多尺度策略来提高性能。根据不同的比例因子调整尺寸为2048 × 2048的图像,即0.5、0.75、1、1.25、1.5。之后,使用0.25的置信度阈值来剔除错误检测。

A.10. Constraint Keypoint Triplets for Object Detection (ConstraintNet)(第三十三名)

  • based on CenterNet

ConstraintNet is buit upon a one-stage keypoint-based detector named CenterNet. Our approach detects each object by restricting their width and height, which improves both precision and recall. First, we design a customized modules named constraint corner pooling, which convolution kernel is depending on constrain boundary of each object. Constraint corner pooling play the roles of extracting features around the target rather than the whole image. Second, the prediction box which boundary is greater than constrain boundary will be abandoned. Last, observing that the corner localization accuracy is gradually refined during multi-stage, we adopt a coarse-to-fine supervision strategy in accordance [20]. Overview of ConstrainNet. A covolutional backbone network applies three corners prediction modules to output heatmaps, embeddings and offsets, respectively. Similar to CenterNet, a triplet of corners and the similar embeddings used to detect a potential bounding box. Then the constrain boundary is used to determine the final bounding boxes.

ConstraintNet基于一个名为CenterNet的一阶段关键点检测器构建。我们的方法通过限制每个对象的宽度和高度来检测每个对象,这提高了精确度和召回率。首先,我们设计了一个名为constraint corner pooling的定制模块,其卷积核依赖于每个对象的约束边界。Constraint corner pooling的作用是提取目标周围的特征,而不是整个图像。其次,边界大于约束边界的预测框将被舍弃。最后,观察到在多阶段过程中角点定位精度逐渐精细化,我们采用了一个与之相符的由粗到细的监督策略[20]。ConstraintNet的概述:一个卷积骨干网络应用三个角点预测模块分别输出热图,嵌入和偏移量。类似于CenterNet,一个角点三元组和相似的嵌入被用来检测一个可能的边界框。然后使用约束边界来确定最终的边界框。

A.11. RetinaNet with Convolutional Block Attention Module (DA-RetinaNet)(第三十名)

DA-RetinaNet is based on the Focal Loss for Dense Object Detection。

  • We use more scales of smaller anchors to detect low-resolution objects;我们使用更多尺度的较小锚点来检测低分辨率的对象。
  • A RetinaNet with ResNet-101 pre-trained weights on ImageNet as the backbone is used, specifically, the features from Conv2 x are also used to detect objects.
  • 使用了改进的CBAM模块。不同于原来的CBAM模块的是,我们同时计算了Channel和spatial attention,然后使用元素求和合并。

A.12. Detection based on coarse-to-fine labeling (DBCL)(第三十二名)

DBCL基于"Segmentation Is All You Need" [40],该方法使用弱监督多模态注释分割(WSMA-Seg)来实现准确且鲁棒的目标检测,无需进行非极大值抑制(NMS)。在WSMA-Seg中,提出了多模态注释,使用弱监督边界框实现感知实例的分割;我们还开发了一个基于运行数据的跟踪算法来追踪对象的轮廓。此外,我们提出了一种多尺度池化分割(MSP-Seg)作为WSMA-Seg的底层分割模型,以实现更准确的分割并提高WSMA-Seg的检测准确性。

A.13. Deformable Cascade-RCNN (DCRCNN)(第二十七名)

DCRCNN采用Cascade-RCNN [2]作为基线,并在其基础上构建额外的模块。我们在骨干网络中加入了可变形卷积神经网络和注意力机制。我们使用SyncBN进行批量标准化训练。我们在训练中使用随机裁剪和颜色抖动增强。对于推理,我们集成了训练网络的最佳检查点。我们还在推理中使用TTA和Soft-NMS。

A.14. Double Pyramid Network (DPN)(第十七名)它的三轮车和敞篷三轮车的AP挺高的

DPN是一个基于Cascade R-CNN [2]的双金字塔网络模型,由图像金字塔和特征金字塔组成。由于网络中的下采样操作,大多数小目标的信息丢失严重。图像金字塔用于生成不同尺度的输入图像,并将每个对象的尺度归一化到一个固定的范围,以减少对最小和最大对象的漏检率。特征金字塔用于生成不同尺度的特征图。多尺度特征融合技术增强了每个层级的特征图的特征。获得的特征金字塔被用作学习图像特征,以在Cascade R-CNN中检测对象。Cascade R-CNN的多阶段边界框回归和分类使得检测结果更加准确。

A.15. Drone Pyramid Networks-ensemble (DPNet ensemble)(第一名)

  • Based on Cascade-RCNN(mmdetection实现的)

  • 遵循了FPN [25]的思想,其特征提取器是在ImageNet上预训练的ResNet-50和ResNet-101 [14]。

  • 在Backbone中引入了全局上下文模块(GC)==[3 Nonlocal networks meet squeeze-excitation networks and beyond]==和可变性卷积(DC)

  • 为了最大限度地利用数据,训练了多个尺度(对于短边是1000、800、600)的FPN的Cascade-RCNN,以自然地处理各种大小的对象。

  • 将ROIPooing层改为ROIAlign(Mask RCNN)来进行特征量化。

RoIPooling 是在 Faster R-CNN 中首次提出的一种方法,它将感兴趣区域(RoI)划分为固定大小的区域,然后使用最大池化将每个区域转化为一个固定大小的特征图。但是,RoIPooling会引入量化误差,因为RoI 的坐标被量化到了离散的像素网格上,这可能会导致定位不准确。

为了解决这个问题,Mask R-CNN 提出了 RoIAlign 方法。RoIAlign 移除了 RoIPooling 中的严格的量化步骤,它使用双线性插值来获取任意位置的像素值,使得特征和原始 RoI 的空间分布更加接近,从而提高了定位的准确性。

总的来说,RoIAlign 相比 RoIPooling 有更高的定位精度,能够更好地处理小尺度和不规则形状的对象。

  • 在训练阶段,我们使用多尺度训练和Libra R-CNN [30]中使用的平衡策略
  • 在推理阶段,我们使用多尺度测试。

A.16. Enhanced High Resolution RetinaNet (EHRRetinaNet)(第九名)

就是提高了分辨率

A.17. Ensemble deep object detector based on graph clique for VisDrone2019 Challenge (EnDet)(第二十六名)

EnDet是由两个基于yolov3 [32]的网络和两个基于faster R-CNN [33]的网络组成的集成模型。首先,我们通过空间金字塔池化(spp)模块修改yolov3网络。具体来说,我们在yolov3的第一个yolo分支网络上添加一个spp模块,得到yolov3-spp1,并在三个yolo分支网络上各添加一个spp模块,得到yolov3-spp3。其次,我们在faster R-CNN中的特征金字塔网络(FPN)添加了残差注意力模块(ra-fpn)。最后,我们通过一个基于图团(clique)的集成方法 [44],结合yolov3-spp1、yolov3-spp3、带有resnet101-fpn主干的faster R-CNN以及带有resnet101-ra-fpn主干的修改版faster R-CNN,构建了EnDet。

A.18. Ensemble of RCNNs (ERCNNs)(第二十三名)

ERCNNs is generated by ensemble of the following object detection models: Cascade R-CNN with ResNeXt101, Faster R-CNN with ResNeXt-101, Faster R-CNN with ResNet-50 and deformable convolution, Faster R-CNN with resNet-50 and spatial attention mechanism, Faster R-CNN with ResNet-50, deformable convolution and spatial attention mechanism

ERCNN 由以下对象检测模型的集合生成:具有 ResNeXt101 的 Cascade R-CNN、具有 ResNeXt-101 的 Faster R-CNN、具有 ResNet-50 的 Faster R-CNN 和可变形卷积、具有 resNet-50 的 Faster R-CNN 和空间注意机制,具有 ResNet-50 的 Faster R-CNN、可变形卷积和空间注意机制(一整个模型融合)

A.19. Feature Selected RetinaNet (FS-Retinanet)(第十一名)

  • RetinaNet的改进
  • 改进
    • 为了减少GPU内存,我们只使用了特征金字塔网络(FPN)[25]的P2,P4,P6。
    • 我们在RetinaNet中加入了==特征选择的Anchor-Free(FSAF)==[47],这大大提高了性能。因此,我们的模型中有一个锚头和一个无锚头。
  • 数据增强
    • 每个原始图像被裁剪成4个区块,每个区块被重新调整为1920 × 1080
    • 我们使用生成对抗网络将白天的图像转换为夜晚的图像,这减少了白天和夜晚样本的不平衡。(域不平衡!!!)

A.20. Gravitational Centroid Points based Network (GravityNet)(第十四名)

  • 源于CenterNet
  • GravityNet是基于CenterNet [46]的,CenterNet使用每个对象的质心来产生用于检测的关键点。在训练过程中,我们的算法包含了来自VisDrone2019数据集的边界框的遮挡细节。通过生成引力质心点,我们生成了类别特定的热图,以捕捉对象的必要细节以提升性能。

A.21. Improved high resolution detector (HRDet+)(第六名)

源码链接:https://github.com/HRNet

论文:https://arxiv.org/pdf/1908.07919.pdf

该模型通过并行连接高分辨率到低分辨率的卷积,在整个过程中保持高分辨率表示,并通过在并行卷积之间重复进行融合来产生强大的高分辨率表示。

后期将仔细阅读该篇论文

A.22. Hybrid Task Cascade for Drone Object Detection (HTC-drone)(第十九名)

  • HTC-drone is improved from the Hybrid Task Cascade (HTC) model
  • Each training images are cropped into four small parts
  • One model is trained based on pedestrian, person and car class, and another model is trained based on other classes. They are combined at testing time
  • The NMS is replaced by soft-NMS. We use ResNet50 as backbone with COCO pre-trained model. The testing set is cropped, and the final result is the combination of different cropped images with NMS

A.23. Hybrid model based on Improved SNIPER, Libra R-CNN and Cascade R-CNN (LibraHBR)(第十五名)

  • Libra-HBR is an ensemble of improved SNIPER [35], Libra R-CNN [30] and Cascade R-CNN [2].

  • It is proved to generalize very well in various weather and light conditions in real-world drone images

  • SNIPER提出了一种在实例级别视觉识别任务中进行有效的多尺度训练的算法。我们将SNIPER中的Faster-RCNN检测框架替换为具有形变的ResNet-101 FPN结构,它引入了对象检测中的额外上下文,并改进了小对象的准确性。

  • 我们使用max-out操作进行分类,以消除由密集小锚点引入的误检的候选框。

  • 我们应用Cascade R-CNN来解决IoU阈值选择问题

A.24. Modified Retinanet (MOD-RETINANET)(第三十一名)

MOD-RETINANET是RetinaNet [26]的修改版本,使用ResNet-50作为主干网络。我们已经适应了无人机图像需要的小对象的算法。我们在FPN [25]中增加了额外的TAPs。我们使用添加了额外TAPs的RetinaNet的修改版本来检测小物体。我们通过改变学习率,批量大小,先验盒子(尺寸和步幅)以及改变主干网络以及回归和分类子模型的复杂性,训练了多个模型。

A.25. Multi-Scale Object Detector Based on Cascade R-CNN (MSCRDet)(第十六名)

  • MSCRDet uses Cascade R-CNN [2] with three stages as the basic structure.
  • We add FPN [25] to deal with the various object scales, especially for small object detection. We use P3 tp P6 feature maps for RPN
  • 考虑到无人机拍摄的场景有很多小物体和密集的物体分布,我们将RoIPooling[33]替换为RoIAlign[13]。因为RoIPooling [33]对特征提取进行粗糙的空间量化,而RoIAlign [13]能保留更精确的空间位置信息。
  • 使用Soft-NMS后处理

A.26. Object Detection in Aerial Images Using Adaptive Cropping (ODAC)(第二十九名)

ODAC是基于Faster RCNN [33]和FPN [25]的简单且有效的框架。首先,基于预先训练的目标检测模型的先验知识,我们提出了一种基于困难区域估计网络的自适应裁剪方法,以增强对困难目标的检测,这使得检测模型能够充分利用其性能。其次,我们使用训练良好的自适应区域估计网络生成更多样化和具有代表性的图像,这在增强训练数据方面是有效的。此外,为了缓解训练过程中的不平衡问题,我们在我们的框架中采用了IoU平衡采样方法 [30] 和平衡L1损失 [30] 作为框回归损失。在测试时,我们选择了预测得分最高的前5个困难区域作为最终的困难区域并再次进行测试,然后合并结果。

A.27. Retinanet Plus (retinaplus)(第二十二名)

在Retinanet的基础上进行多尺度训练和测试。

A.28. Re-RegressionNet (RRNet)(第二名)

  • 首先使用卷积神经网络生成the center point and the size of the object of each class.
  • 将粗检测的结果送入Re-REgression Moudle,由ROI Align module和一些卷积层组成
  • 由上述模块进行预测粗检测结果和GT的bias,然后进行refines,最后使用Soft-NMS。

A.29. Spatial Attention for Multi-scale Feature Refinement Based on Cascade RCNN (SAMFR-Cascade RCNN(第二十四名)

SAMFR-Cascade RCNN使用Cascade R-CNN [2]作为基础网络,通过级联几个检测网络连续优化预测结果。与普通级联不同,Cascade R-CNN的几个检测网络是在由不同IOU阈值确定的正负样本上训练的。在此模型的基础上,我们添加了可形变卷积(DCN)层,该层可以在ground truth的指导下主动学习对象区域,以改变卷积滤波器的采样位置,从而实现对目标位置的更准确的定位,并获得更具代表性的特征。对于高级特征,我们指出神经网络获取的对象中心部分的信息越来越多,但对象的边缘信息对对象定位有很大影响。针对这个问题,我们设计了一种基于注意力机制的新型空间精细化模块,以修复多尺度特征中的边缘细节。同时,下采样在分类任务中表现得很好,但对于对象检测来说,由于缺乏全局位置信息,可能并不一定有利于对象定位,我们提出的RFEB试图解决这个问题。最后,我们采用轮廓检测算法和多模型融合进行后处理

A.30. cascade R-CNN with SGE backbone (SGEcascade R-CNN)(第八名)

SGE-cascade R-CNN is improved from cascade RCNN [2]. What we change is that we use SGE [21] block and ResNet50 [5] as our backbone. SGE makes each set of features robust and well-distributed over the space, and models a spatial enhance mechanism inside each feature group, by scaling the feature vectors over all the locations with an attention mask.

A.31. Segmentation + Detection (S+D)(第四名)

S+D由两个步骤组成,分割和检测。==在分割步骤中,模型输出低精度热图(比原始图像尺寸小),用于生成可能存在物体的几个区域。==在检测步骤中,使用常规检测模型在从原始图像裁剪出的区域中检测对象。经过这两个主要步骤后,需要进行一些后处理,将区域中的框合并到全图像中。

在第一步中,使用了DeepLab [43]中的ASPP模块来预测图像的类别不敏感热图。像素级分割热图远远超出了低精度区域生成的需要。在ASPP中进行了几个修改,包括减少ASPP模块的分支和最后一个卷积层的输出通道。使用MobileNet v2 [34]作为模型的主干,因为这个步骤对模型的容量需求非常低,而速度在区域生成中也非常重要。分别使用分层聚类和图像形态学方法来处理小区域和大区域。

在第二步中,使用Cascade RCNN [2]与HRNet [36]作为Open MMLab Detection Toolbox的主干作为检测模型,并且没有做任何修改。在每个区域进行检测后,也需要进行NMS,因为区域之间存在重叠。

A.32. Scale-Aware Trident Networks for Object Detection (TridentNet)(第二十名)

TridenNet [22] 旨在生成具有统一表示能力的尺度特定特征图。我们使用并行多分支架构,其中每个分支共享相同的转换参数,但具有不同的感受野。然后,我们使用尺度感知训练方案,通过对适当尺度的对象实例进行采样进行训练来专门化每个分支。我们的方法涉及多尺度训练和软nm等其他技术。该模型使用一个 2080Ti GPU 和 SimpleDet [6] 框架进行训练。

A.33. TwoStage ENsembles (TSEN)(第十八名)

  • TSEN uses ensembles of 3 two-stage methods: vanilla Faster R-CNN [33], Guided Anchoring [38] and LibraRCNN [30]
  • Note that all the backbones are ResNeXt101 with deformable convolution from C2 to C5.
  • replace classification cross-entropy loss with bootstrap loss in Libra-RCNN, which increases AP about 1% in validation.
  • We train the model on random cropped patch with 640 × 640 pixels, and the image is scaled to 1024 × 1024 during training. During inference, we use multi-crop patches on test images (640, 768, 896, 1024 pixels), and merge the result with NMS (0.33 threshold).

你可能感兴趣的:(目标检测,论文阅读,笔记,人工智能,计算机视觉)