Superpoint Transformer for 3D Scene Instance Segmentation

Abstract

现有的大多数方法通过扩展用于3D物体检测或3D语义分割的模型来实现3D实例分割。然而,这些非直接的方法存在两个缺点:1) 不精确的边界框或不令人满意的语义预测限制了整体3D实例分割框架的性能。2) 现有方法需要一个耗时的中间聚合步骤。为了解决这些问题,本文提出了一种基于Superpoint Transformer的全新端到端3D实例分割方法,命名为SPFormer。它将点云中的潜在特征组合成超点,并通过查询向量直接预测实例,而不依赖于物体检测或语义分割的结果。该框架的关键步骤是一个具有transformers的新颖查询解码器,它可以通过超点交叉注意机制捕获实例信息并生成实例的超点掩码。通过基于超点掩码的二分匹配,SPFormer可以在没有中间聚合步骤的情况下实现网络训练,从而加速网络。在ScanNetv2和S3DIS基准上的大量实验证明我们的方法简洁而高效。值得注意的是,SPFormer在ScanNetv2隐藏测试集的mAP方面超过了最先进的方法 4.3 % 4.3 \% 4.3%,同时保持快速推断速度(每帧

你可能感兴趣的:(3D实例分割,transformer,3d,深度学习)