论文阅读《BEVFormer v2》

BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

目录

  • 摘要
  • 1 介绍
  • 2 相关工作
    • 2.1 BEV三维目标检测器

摘要

我们提出了一种具有透视监督的新型鸟瞰图(BEV)检测器,其收敛速度更快并且更适合现代图像主干。现有的最先进的BEV检测器通常与某些深度预训练主干网络(如VoVNet)相关联,从而阻碍了蓬勃发展的图像主干网络和BEV检测器之间的协同作用。为了解决这一限制,我们优先通过引入透视图监督来简化BEV检测器的优化。为此,我们提出了一个两阶段BEV检测器,其中来自透视头的提议被输入到鸟瞰头中进行最终预测。为了评估我们模型的有效性,我们进行了广泛的消融研究,重点关注监督形式和所提出的检测器的通用性。所提出的方法通过广泛的传统和现代图像主干得到了验证,并在大规模nuScenes数据集上取得了新的SoTA结果。代码即将发布。

1 介绍

鸟瞰图(BEV)识别模型引起了自动驾驶领域的兴趣,因为它们可以自然地将来自多个传感器的部分原始观测结果整合到统一的整体3D输出空间中。典型的BEV模型建立在图像主干之上,然后是视图转换模块,该模块将透视图像特征提升为 BEV 特征,然后由BEV特征编码器和一些特定任务的头进一步处理。人们投入了大量精力来设计视图转换模块,并将不断增长的下游任务列表纳入新的识别框架,但BEV模型中图像主干的研究却被忽视了。作为一个前沿且要求极高的领域,将现代图像主干引入自动驾驶是理所当然的。令人惊讶的是,研究界选择坚持使用VoVNet来享受其大规模深度预训练。在这项工作中,我们专注于释放现代图像特征提取器的全部威力,用于

你可能感兴趣的:(论文,论文阅读)