【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud

PASS3D:精确、快速的三维点语义分割点云

 

摘要

在这篇文章中,我们提出了PASS3D去实现逐点级的三维点云语义分割。我们的框架结合了传统几何方法的高效和深度学习方法的鲁棒性,包含两个阶段:阶段1,加速聚类生成算法会通过分割无地面的点云生成优化的聚类提案,能够在极短时间内生成较少冗余和较高召回率;阶段2,通过神经网络对这些聚类提案进行放大和进一步处理,估计每个点的语义,同时提出一种新的数据增强方法,提高网络对所有类别特别是非刚性物体(行人)的识别能力。在KITTI原始数据集上进行评估,PASS3D在一些结果上与最先进的技术形成鲜明对比,使其能够胜任自动驾驶系统中的3D感知。

代码还未开源,视频演示https://www.youtube.com/watch?v=cukEqDuP_Qw.

1 简介

自动驾驶技术作为一种极具发展前景的技术,越来越受到人们的重视。基于三维激光的感知是自主驾驶的重要技术解决方案之一。虽然三维激光雷达扫描仪可以直接提供距离测量,生成三维点云来捕获场景的几何结构,但是由于纹理信息的缺失,点云的语义分割仍然是一个很大的挑战。三维场景的感知需要对点云进行语义分割,这是一个尚未解决的问题。

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第1张图片

本文介绍的工作主要是解决三维点云上的逐点语义分割问题,对每个三维点估计一个语义标签,如图1所示。之前的一些工作

【Fast segmentation of3d point clouds: A paradigm on lidar data for autonomous vehicleapplications】,【Efficient online segmentation forsparse 3d laser scans】基于欧氏距离本能地分割点云。这些解决方案足够有效,但不提供语义信息。

受到基于图像的语义分割方法的启发,一些研究者提出了【Pixor: Real-time 3d objectdetection from point clouds,】,【Deep continuous fusionfor multi-sensor 3d object detection】,【Squeezeseg: Convolutionalneural nets with recurrent crf for real-time road-object segmentationfrom 3d lidar point cloud】,【Squeezesegv2:Improved model structure and unsupervised domain adaptation forroad-object segmentation from a lidar point cloud】,【Pointseg: Real-timesemantic segmentation based on 3d lidar point cloud】采用成熟的基于CNN的神经网络,将三维点云投影到二维平面中,预测每个像素的语义标签。SqueezeSeg和SqueezeSegv2等方法是实时的,但不是最优的,因为它们忽略了3D点云中的内部几何信息,导致性能不佳。

融合的方法【Frustum pointnetsfor 3d object detection from rgb-d data】【Pointfusion: Deep sensor fusion for3d bounding box estimation】【Joint 3d proposal generation and object detection from view aggregation】解决上述限制,通过连接多信息从相机和激光雷达。尽管如此,基于2d的检测可能会在一些具有挑战性的情况下失败,这些情况只能在3D空间中很好地观察到,而且由于要处理大量的图像和点云输入,通常运行缓慢。【Pointrcnn: 3d object proposal generationand detection from point cloud】的另一种方法是操作
直接生成三维数据,采用自底向上的方案生成三维包围盒建议和执行标准的三维包围盒优化。取得了良好的效果三维检测任务,但使用深度神经网络处理场景中的整体点,理论上耗时,且面临坐标偏差带来的问题。

针对上述挑战,我们提出了一种新的两阶段框架PASS3D(三维点云的精确和加速语义分割),利用三维几何聚类算法和三维深度学习方案。该框架结合了传统几何方法的有效性和先进深度学习网络的鲁棒性。在第1阶段,我们利用三维空间的几何和拓扑结构去除地面点,并使用基于环的【Fast segmentation of3d point clouds: A paradigm on lidar data for autonomous vehicleapplications】方法快速地将其余点分割成数个聚类。然后优化聚类结果得到最终的提案(proposal)。在第二阶段,我们通过引入一种新的方法来消除坐标偏差,对提案进行规范化转换,然后将其放入一个强大的点集处理器中,如PointNet++,以获得点的语义信息。整个网络流程图如图2所示。

和最先进的Squeezesegv2相比,3D行人IoU提高16.5%,3D自行车提高17.2%,平均IoU提高7.9%。我们第一阶段的聚类实现了在5毫秒内达到89.5%的逐点召回率,每帧只有约30个提案的聚类。

我们工作的主要贡献如下:

(1)我们提出了可行的两阶段3D语义分割框架,结合了传统几何方法的高效和深度学习方法的鲁棒性,无信息损失即可获得纯3D功能失利。

(2)我们的加速聚类提议算法实现较高的按点召回率,而在极短的时间,这大大缩短了整体时间并减少后续计算,使其适用适用于自动驾驶应用。
(3)针对点云学习问题,提出了一种新的数据增强方法,有效地缓解了三维空间中的坐标偏差,提高了网络的性能和泛化能力,特别是对欧式空间的非刚体 。
(4)在KITTI原始数据集上的实验表明,我们的方法比最先进的方法有显著的优势。我们的源代码即将开源。

 

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第2张图片

 

2 相关工作

  • B. Douillard, J. Underwood, N. Kuntz, V. Vlaskine, A. Quadros,P. Morton, and A. Frenkel, “On the segmentation of 3d lidar pointclouds,” in 2011 IEEE International Conference on Robotics andAutomation, pp. 2798–2805, IEEE, 2011. 总结了几种基于迭代算法的地面点去除方法RANSAC和GP-INSAC
  • F. Moosmann, O. Pink, and C. Stiller, “Segmentation of 3d lidar datain non-flat urban environments using a local convexity criterion,” in2009 IEEE Intelligent Vehicles Symposium, pp. 215–220, IEEE, 2009.使用range image计算点云中的局部凸包
  • I. Bogoslavskyi and C. Stachniss, “Efficient online segmentation forsparse 3d laser scans,” PFG – Journal of Photogrammetry, RemoteSensing and Geoinformation Science, pp. 1–12, 2017.提出了一种有效的地面分割和聚类算法
  • M.-O. Shin, G.-M. Oh, S.-W. Kim, and S.-W. Seo, “Real-time andaccurate segmentation of 3-d point clouds based on gaussian process regression,” IEEE Transactions on Intelligent Transportation Systems,vol. 18, no. 12, pp. 3363–3377, 2017.直接提取的前景对象没有地面分割
  • D. Z. Wang, I. Posner, and P. Newman, “What could move? findingcars, pedestrians and bicyclists in 3d laser data,” in 2012 IEEEInternational Conference on Robotics and Automation, pp. 4038–4044,IEEE, 2012.关注整个过程,包括分割、聚类和分类。
  • D. Zermas, I. Izzat, and N. Papanikolopoulos, “Fast segmentation of3d point clouds: A paradigm on lidar data for autonomous vehicleapplications,” in 2017 IEEE International Conference on Robotics andAutomation (ICRA), pp. 5067–5073, IEEE, 2017.针对三维激光雷达点云的特点,提出了一种基于环的点云分割方法。

以上无语义信息

1)基于2D的方法

灵感来自成熟的基于图像的语义分割框架,几种方法项目点云到鸟瞰图(birds-eye-view)([10]、[3]、[4],[18])或FV(前视图)([5]、[6][7]),并使用一个2D CNN学习点云的特征检测或语义分割。在[3]中,利用特定高度编码的BEV输入,设计了一种快速单级探测器。这种方法只需要处理少量的数据。然而,这些方法的关键问题是在生成2D地图时丢弃了许多点,导致垂直或深度轴上的信息大量丢失。信息的丢失严重影响了三维特征学习的性能。

2)基于融合的方法

  • X. Chen, H. Ma, J. Wan, B. Li, and T. Xia, “Multi-view 3d object de-tection network for autonomous driving,” in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 1907–1915, 2017.
  • C. R. Qi, W. Liu, C. Wu, H. Su, and L. J. Guibas, “Frustum pointnets for 3d object detection from rgb-d data,” in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition, pp. 918–927, 2018.
  • C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierar-chical feature learning on point sets in a metric space,” in Advancesin Neural Information Processing Systems, pp. 5099–5108, 2017.

MV3D[18]采用激光雷达点云鸟瞰图和前视图以及RGB图像作为输入,获得多通道特征。在[8]中,使用二维检测网络来提出截锥体点云,然后使用PointNet++[19]来预测三维对象边界框。这些方法通常比其他方法表现得更好,但理论上运行缓慢。此外,基于2D图像的提案可能会在某些具有挑战性的情况下失败,而这些情况可以很好地观察到3d空间。

3)基于3D的方法

  •  Y. Yan, Y. Mao, and B. Li, “Second: Sparsely embedded convolutionaldetection,” Sensors, vol. 18, no. 10, p. 3337, 2018.
  • Y. Zhou and O. Tuzel, “Voxelnet: End-to-end learning for point cloudbased 3d object detection,” in Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, pp. 4490–4499, 2018.

基于体素的方法,将点云数据离散到体素中,然后进行三维卷积。体素大小选择不当会影响性能,太大会丢失细节,太小会增加很多计算量。

  • S. Shi, X. Wang, and H. Li, “Pointrcnn: 3d object proposal generationand detection from point cloud,” arXiv preprint arXiv:1812.04244,2018.
  • C. R. Qi, H. Su, K. Mo, and L. J. Guibas, “Pointnet: Deep learningon point sets for 3d classification and segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pp. 652–660, 2017.
  • C. R. Qi, L. Yi, H. Su, and L. J. Guibas, “Pointnet++: Deep hierar-chical feature learning on point sets in a metric space,” in Advancesin Neural Information Processing Systems, pp. 5099–5108, 2017.

直接从点云学习点方面的特性。充分利用了三维信息,避免了体素方法的缺点。

受【Fast segmentation of3d point clouds: A paradigm on lidar data for autonomous vehicleapplications】的启发,我们在第一阶段的工作实现了基于环的聚类方法来分割点云和优化聚类提案。我们的语义分割网络在第二阶段直接使用三维点云数据,附加逐点的语义估计。

 

3 PASS3D的框架

在本节中,我们将介绍我们的两阶段逐点语义分割框架。完成的管道如图2所示,包括加速聚类提案阶段和逐点语义预测阶段。我们的主要观点是将整个场景分割并将点云聚集成多个有意义的子部分,然后将它们放入一个强大的点集处理器PointNet++中,以获得点分类标签。我们发现我们感兴趣的对象(如“汽车”、“行人”、“自行车”)在三维空间中是独立的,没有重叠,因此没有必要考虑场景中的所有点云来识别每个对象,只需要一个对象本身的先验点云即可。移除地面后的点云是自然地彼此分离。因此,我们认为对点云进行无地面聚类来获得候选聚类是可行和有效的。在此基础上,将聚类转化为功能强大的神经网络进行特征提取和语义分割。

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第3张图片

A.第一阶段:加速聚类提案(proposal)

【其实和[1]的方法差不多,可以直接看它的论文,比较清晰一点】

基于深度学习的区域建议方法在二维图像中取得了显著的效果,但在三维点云场景中,由于三维搜索空间巨大,点云格式不规则,使得区域建议方法的效果较差。现有的PointRCNN,Second显著促进了三维点云识别的发展。然而,仍有一些问题需要解决,如提出的候选对象过多,将所有的点都放入神经网络中,导致计算量和时间消耗大幅增加。我们观察到3D场景中的物体是自然分离的,没有重叠。为此,我们提出了一种加速聚类的方法来生成聚类,并优化聚类得到最后结果,从而在很短的时间内实现了在很少候选对象的情况下达到高的点向召回率。图3展示了我们的集群建议结果。该部分一般分为三个步骤:地平面拟合、基于环的聚类和提案优化。

1)地平面拟合(论文【1】中的算法图)论文讲的不是很清晰,放算法图更好理解

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第4张图片

2)环形聚类(论文【1】中的算法图)

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第5张图片

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第6张图片

3)提案优化

我们为每个集群生成一个最小的三维定向包围框,并保证其z轴垂直于地面。因为我们事先已经知道了感兴趣的对象(如“Car”、“行人”、“骑行者”),我们将根据聚类中的点数和每个提案的包围框大小对提案进行排序,将不满意的聚类设置为背景。自适应阈值Thnum(聚类内点的数量)随着聚类与激光雷达距离的增加而减小,这是由于点云分布在更远的距离上更稀疏所致。

我们注意到,在划分地平面时,一些属于物体的点(如汽车轮子、人脚、标志底部)由于太靠近地面而被错误地计算为地。基于这个原因,我们扩大了面向3D的边界框,并将更多的点合并到优化提案中。

 

B.第二阶段:逐点语义分割

在本节中,我们的目标是预测每个点的类别,使用阶段-1中的聚类结果。该部分一般分为两个步骤:数据准备和基于学习的语义分割。

1)数据预处理

【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第7张图片【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud_第8张图片

坐标转换  由于目标在激光雷达坐标系中分布在场景的各个位置,使得目标的坐标变化剧烈,使得神经网络难以收敛。考虑到这一点,我们将每个聚类作为样本,随机使用其三维方向包围框的一个底顶点作为局部坐标系的原点,并将包围框放在第一个八分区中,如图4所示。坐标系的改变不会影响点与点之间的相对位置,使得数据分布更加集中,使得神经网络更加关注点的相对位置而不是绝对位置。

数据增强  受二维或三维CNN工作[22]、[20]中训练数据扩充方法的启发,我们提出了一种新的点云学习问题的数据扩充方法。我们发现局部坐标系中点云分布的不平衡会影响神经网络的泛化能力。例如,在训练样本中,沿着局部x轴方向的车比沿着局部y轴方向的车多,这不应该影响神经网络。为了抑制点云分布不均匀所带来的不利影响,与其他[20]、[11]方法通常对整个场景进行扩展不同,我们提出了一种处理我们的提案的数据扩展方法,这种方法更加高效、有针对性。如图5所示,一个样本在局部坐标系中总共有8种表示(忽略垂直方向)。我们对样本进行旋转和镜像,以在不更改样本类别的情况下创建其余七个生成的样本。所有这八个样本都可能是通过我们的第一阶段方法在现实世界中获得的。我们将这八个样本混合到网络的训练集中,在训练过程中将对其进行随机取样。 这样,基于学习的方法可能对点云视角的变化(局部坐标系选择)不敏感,并且可以在某种程度上减轻坐标偏差的负面影响。我们对此的理解是,非刚性物体(如行人和骑自行车的人)的形状是可变的,每一个样本在任何时刻都是独特和罕见的。该方法丰富了训练数据的非重复性和非对称性。在我们的实验中,这些物体得到了明显的改进。

2)基于学习的语义分割

我们的网络将预先准备好的聚类作为输入,并预测每个点的概率分数,该分数表明该点属于预先准备的类别的可能性有多大。我们利用PointNet++和多尺度分组作为我们的主网络,进而去学习区分用来描述原始点的逐点特征,它可以被其他三维神经网络灵活地代替。我们的网络在一个训练样本中提取了固定数量的N个点。如果样本中的点的个数NUM大于N,那么这些点将被随机选择。否则,这些点将随机重复。考虑到采样过程中NUM的丢失会影响神经网络的分类过程,我们定义了一个特征去补偿,它描述了NUM和N之间的关系(?)。PointRCNN[11]将距离信息加入到点特征中,但在实验中发现其影响很小。最后,我们连接在局部坐标系的点的坐标系,归一化点云强度,转换相对聚类点云数量为特征向量。

4 实验

5 总结

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(【译文】 PASS3D: Precise and Accelerated Semantic Segmentation for 3D Point Cloud)