自动驾驶+行人重识别面经

1分析Fast-BEV方案和CVT方案的区别?为什么Fast-BEV方案要更好一点?

2简述目前的BEV方案,可以分为几类,每一类的发展历程?

使用深度估计:LSS➡BEVDet➡BEVDet4D➡BEVDepth➡BEVFusion

tranformer的方式:BEVFormer➡BEVFormerV2 

使用Fast-ray的方式:M2BEV➡Fast-BEV

CVT: CVT➡GKT(Geometry-guided Kernel Transformer)

不生成BEV特征的方式:DETR3D➡PETR

3详细说说鱼眼去畸变模块,和去畸变函数相比有什么优点?

在Fast-bev方案中,是先将BEV空间划分为一个个voxel格子,我们可以获得每个格子的3D坐标,然后我们可以通过相机内外参投影到2D的图像空间。但是和普通的针孔相机相比,鱼眼相机有一个折射角度,这样如果仅按照内外参投影的话,是投不到准确的2D图像位置的。但是针孔相机的投影的2D点和鱼眼相机投影的2D点存在一定关系,这个关系可以通畸变参数表示。所以我们先根据相机的外参将3D点投影到2D图像坐标系,然后利用鱼眼相机的畸变参数对投影点进行矫正,就能得到3D点正确的投影位置了。

与去畸变函数相比:①不会减小视场,图像不会失真 ②速度较快

4.数据级融合、特征级融合、决策级融合各有什么优缺点?

数据级融合优缺点:

①可以从整体上来处理信息,让数据更早做融合,从而让数据更有关联性,比如把激光雷达的点云数据和摄像头的像素级数据进行融合,数据的损失也比较少。

②挑战也很明显,因为视觉数据和激光雷达点云数据是异构数据,其坐标系不同,视觉数据是2D图像空间,而激光雷达点云是3D空间,在进行融合时,只能在图像空间里把点云放进去,给图像提供深度信息,或者在点云坐标系里,通过给点云染色或做特征渲染,而让点云具有更丰富的语义信息。坐标系的不同,也导致前融合的效果并不理想,一方面,前融合需要处理的数据量较大,对算力要求较高;另一方面,前融合要想达到好的效果,对融合策略要求较高,过程非常复杂,所以目前业内应用并不多。

特征级融合(BEV):

优点:有效特征在BEV空间进行融合,一来数据损失少,二来算力消耗也较少(相对于前融合),所以一般在BEV空间进行中融合比较多。

决策级融合(后融合)优缺点:

①后融合算法比较简单,每种传感器的识别结果输入到融合模块,融合模块对各传感器在不同场景下的识别结果,设置不同的置信度,最终根据融合策略进行决策。

②各自传感器经过目标识别再进行融合时,中间损失了很多有效信息,影响了感知精度,而且最终的融合算法,仍然是一种基于规则的方法,要根据先验知识来设定传感器的置信度,局限性很明显

5Tesla AI Day占用网络 其实是一个3D的分割网络

目前存在一些问题:①从2D图像很难得到稳定的深度预测

②遮挡问题

③预测的结构来自2D,而不是3D真实世界

④不能得到悬挂的障碍物(coner case)

⑤还是coner case

Occ Network去掉了三个东西:BEV、3D bbox、目标检测

Occ对比于BEV

自动驾驶+行人重识别面经_第1张图片

占用网格相比于3D bbox

自动驾驶+行人重识别面经_第2张图片

6.Pointpillar和Voxelnet的工作原理

7.self-attention为什么要尺度化

8.BN层的作用

你可能感兴趣的:(自动驾驶,人工智能,机器学习)