Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion论文解析

一、背景

对于基于多视角图像的3D目标检测,现有的工作有两个方向,分别是稀疏检测与基于BEV的检测方法。其中BEV方法是将多视图的图像特征转到BEV空间上执行下游任务,但是它的缺点是BEV特征图的构建需要从各个视角特征图进行稠密的采样工作,BEV构建复杂且资源需求高;并且感知范围受BEV特征图尺度的限制,因此需要在感知范围、效率与准确度间权;此外就是BEV特征图将高度维度压缩,导致其对于一些在高度层面上存在的信息感知不佳。而稀疏检测是直接采样稀疏特征来优化3D锚框,其中典型的DETR3D就是使用3D参考点去采样特征。
该工作做出了以下的贡献:

  1. 提出了Sparse4D的框架,它构建了多个4D关键点采样特征,能够有效提取每个框的上下文信息。
  2. 提出了可变形4D融合模块,融合多尺度、多视角、多时间戳的多个4D采样点来得到实例特征。
  3. 由于多个不同的3D采样点可能采样同一个点,设计了depth-reweight模块解决这个问题。

二、方法

Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion论文解析_第1张图片

总体流程

首先是编码器部分,使用Resnet Backbone与FPN neck处理多时间的图片,得到的输出是一个多时间、多视角、多尺度的特征图序列。而解码器部分则是包含多个迭代优化模块用于不断精进anchors,还有一个classification heaad预测类别。每个refinement模块接收特征序列、anchors以及instance feature,从而得到优化的instance feature。而reweight模块则是对于更新的instance feature进行重新加权。

Deformable 4D Aggregation

Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion论文解析_第2张图片

该模块包含三个部分,首先是4D keypoints generation,这里使用了fixed keypoint与 learnable keypoints,对于第二个是使用以下式子生成

D m = R y a w ⋅ [ sigmoid   ( Φ ( F m ) ) − 0.5 ] ∈ R K L × 3 P m , t 0 L = D m × [ w m , h m , l m ] + [ x m , y m , z m ] D_m = \mathbb{R}_{yaw} \cdot [\text{sigmoid} \, (\Phi(F_m)) - 0.5] \in \mathbb{R}^{K_L \times 3} \\P^L_{m,t_0} = D_m \times [w_m, h_m, l_m] + [x_m, y_m, z_m] Dm=Ryaw[sigmoid(Φ(Fm))0.5]RKL×3Pm,t0L=Dm×[wm,hm,lm]+[x

你可能感兴趣的:(稀疏检测任务,目标检测,人工智能,计算机视觉)