论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions

论文简介

        本文介绍了K-Radar这一大型4D雷达张量(多普勒-距离-水平角-俯仰角)目标检测数据集。该数据集还包含高分辨率激光雷达点云、来自4个环视相机的RGB立体图像、RTK-GPS和自车的IMU数据。采集场景包括多种道路(城市、郊区、高速路等)、多个时段(白天、夜晚)、多种天气(晴、阴、雨、雾、雪、雨夹雪等),可以验证雷达对天气的鲁棒性。标注信息由激光雷达点云获得,可根据校准矩阵转换到雷达坐标系下。此外,数据集还提供了物体的跟踪ID,可以用于目标跟踪任务。
  数据集的开发工具箱(devkit)包含基于4D雷达张量的网络训练/评估代码、标注/校准工具,以及可视化方法。
  此外,本文提出一个3D目标检测的基准方案,直接将4D雷达张量作为网络输入,证明了高度信息对雷达3D目标检测的重要性。
  • 3D毫米波雷达和4D毫米波雷达的区别——高度信息

    • 4D毫米波雷达比3D毫米波雷达增加了俯仰角度测量°的能力,从而获取被测目标真实的高度数据,也就是目标物体在笛卡尔坐标系下z轴方向上的距离

    • 对于3D毫米波雷达来说,道路中间的井盖,减速带,悬在半空中的各种标识牌,限高架%,静止的车辆等,由于没有高度信息,通过3D毫米波雷达完全无法决策这些障碍物是否影响通行。针对静止物体,各家厂家简单粗暴,要么直接忽略,要么极大降低置信度。。这也是Tesla前期几起事故的原因之一: 摄像头没有识别出倾倒的白色货车车厢,毫米波雷达。识别到,但是结果在决策中置信度太低,导致车辆没有触发自动紧急自动功能。。

      • 静止物体指的是相对于路面不移动的物体,例如道路中间的井盖、减速带、悬在半空中的各种标识牌、限高架、静止的车辆等。这些物体对于自动驾驶车辆来说,可能是可以越过或者从下方穿过的无害物体,也可能是需要避让或者停车的危险物体。

        • 直接忽略:这种方法是最简单粗暴的,它假设所有相对于路面不移动的雷达回波都是无关紧要的噪声或者基础设施,因此直接将其过滤掉,不参与后续的目标检测和跟踪。这种方法的优点是可以减少数据量和计算量,提高系统效率;缺点是可能会漏掉一些真正需要注意的静止物体,例如前方停着的车辆或者障碍物,从而导致安全风险。

        • 极大降低置信度:这种方法是在直接忽略的基础上做了一定的改进,它不完全忽略静止物体的回波,而是将其置信度降低到一个很低的水平,例如0.01或者0.001。这样做的目的是为了防止一些特殊情况下静止物体突然变成运动物体,例如前方停着的车辆突然启动或者倒车。这种方法相比直接忽略有一定的安全性提升,但仍然存在误判和漏判的可能性。

          • IoU是什么?目标检测基础模块之IoU及优化:目标检测基础模块之IoU及优化 - 知乎

          • 目标检测中的非极大值抑制(NMS)算法目标检测中的非极大值抑制(NMS)算法 - 知乎

          • 极大降低置信度的方法是一种在目标检测中处理静止物体的方法,它的原理是根据边界框与真实目标的重叠程度(IOU)来调整边界框的得分,而不是直接删除得分低的边界框。这样可以避免一些同类目标由于IOU较大而被误删的情况,提高目标检测的准确性和鲁棒性。

          • 至于为什么要使用这种方法,而不是完全忽略静止物体的回波。这是因为在一些特殊情况下,静止物体可能会突然变成运动物体,例如前方停着的车辆突然启动或者倒车,或者路边的树枝被风吹动。如果完全忽略静止物体的回波,那么雷达就无法及时发现这些变化,从而导致安全风险。而如果极大降低置信度,那么雷达就可以保留一些静止物体的回波,但是将其得分降低到一个很低的水平,例如0.01或者0.001。这样做的好处是可以在不影响系统效率和性能的前提下,增加系统对静止物体变化的敏感度和响应能力。

        • 结合其他传感器

        由于4DRT高维表示对人类来说是不直观的,我们利用高分辨率的LPC,使注释器可以在可视化点云中准确地标记道路上物体的3D边界框。3D边界框可以很容易地从激光雷达转换到雷达坐标框架,因为我们提供了空间和时间校准参数,分别校正由于传感器和异步测量的分离而产生的偏移。
  • 校正由于传感器和异步测量的分离而产生的偏移
    • 使用基函数方法来估计时间偏移,利用连续时间批量估计的最新进展,存在于最大似然估计的严格理论框架内,具有更高的可重复性和准确性。这种方法可以将空间位移估计为毫米精度,时间偏移估计小于最快测量间隔。您可以参考这篇文章1来了解更多细节。

      • 多源异构传感器时空校准_采样周期小的传感器n次量测值用最小二乘法融合成k时刻的量测值,将采样周期大的传-CSDN博客

        • 时间配准

          • 1、通过时间配准算法在融合前就直接消除传感器量测数据的时间误差

            • Blairw D[4]、周锐[5]把采样周期小的传感器n次量测值用最小二乘法融合成k时刻的量测值,将采样周期大的传感器的第 k 时刻的量测值与采样周期小的传感器虚拟的第 k时刻的量测值进行融合处理,需传感器采样周期为整数比。

            • 游文虎[6]主要是通过 m 阶保持器的使用来使采样周期不同的传感器同步,但在采用此方法进行时间配准时需要对同步时间差进行测量。

            • 王宝树等通过对各传感器的量测数据进行内插外推处理以实现时间同步,在选定时间片 T 时要根据运动状态的不同而进行选择,将各传感器的量测数据按照采样频率高低来进行排序,然后把采样频率高的量测数据配准到最低采样频率传感器的采样时刻上。

    • 使用惯性辅助校准系统的状态向量包括:惯性导航状态、一组环境特征、一组传感器的时空和内在校准参数。这种方法可以利用高速惯性辅助的多传感器校准方法(称为iCalib)来实现异步IMU、摄像机、激光雷达和车轮里程计传感器的校准。您可以参考这篇文章2来了解更多细节。

      • 超全汇总!多传感器离线/在线时空联合标定方法 - 知乎

    • 使用分段拟合的方法来获得时间延迟的范围值,再将时间延迟作为状态量进行状态扩充再进行估计。这种方法可以对各传感器的量测数据进行内插外推处理以实现时间同步,在选定时间片 T 时要根据运动状态的不同而进行选择,将各传感器的量测数据按照采样频率高低来进行排序,然后把采样频率高的量测数据配准到最低采样频率传感器的采样时刻上。您可以参考这篇文章3来了解更多细节

      • 遥感数字图像处理——第五章——辐射校正_�小幸运�的博客-CSDN博客

  • 雷达张量(RT)和雷达点云(RPC))的可视化
  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第1张图片
    • FMCW雷达的信号处理——极坐标转化到笛卡尔坐标系中

      • 首先,对回波信号进行快速傅里叶变换(FFT),将其从时域转换到频域,得到沿多普勒、距离、方位和仰角维度的功率谱。多普勒维度表示目标的相对径向速度,距离维度表示目标与雷达之间的距离,方位维度表示目标在水平平面上的角度,仰角维度表示目标在垂直平面上的角度。

      • 其次,对功率谱进行阈值判断和峰值检测,找出超过阈值的峰值点,这些峰值点代表了可能存在的目标。阈值判断可以根据不同的算法来确定,例如常数假报警率(CFAR)算法、自适应阈值算法等。峰值检测可以根据不同的方法来实现,例如局部最大值法、插值法、拟合法等。

      • 最后,对峰值点进行聚类和跟踪,将相邻或相似的峰值点归为一类,形成一个目标候选组,并给出其位置、速度、形状等信息。聚类和跟踪可以根据不同的算法来完成,例如基于密度的聚类算法、卡尔曼滤波器、粒子滤波器等。

    • 对RT应用CFAR算法,以点云的形式提取目标信息

      • 首先,确定检测单元和参考单元。检测单元是指需要判断是否存在目标的单元,参考单元是指用于估计背景杂波功率水平的单元。通常,参考单元位于检测单元两侧,前后各n个,中间留出一定数量的保护单元,防止目标能量泄漏到参考单元影响检测效果。

      • 其次,根据CFAR算法的类型,计算背景杂波功率水平Z和门限因子T。Z是根据参考单元的功率值来估计的,例如CA-CFAR算法就是取参考单元的平均值作为Z;T是根据虚警概率来确定的,例如CA-CFAR算法就有T=P_fa^(-1/2n)-1。

      • 最后,根据背景杂波功率水平Z和门限因子T,计算检测门限V_TH=T*Z,并与检测单元的功率值进行比较。如果检测单元的功率值大于检测门限,则认为存在目标,并将该单元对应的位置、速度、强度等信息作为一个点云数据输出;如果检测单元的功率值小于或等于检测门限,则认为不存在目标,并忽略该单元。

      • 【目标检测】雷达目标CFAR检测算法_Zhi Zhao的博客-CSDN博客

K-Radar还为每个带注释的对象提供了唯一的跟踪ID,这对于沿着帧序列跟踪对象非常有用。
  • 首先,由于4D毫米波雷达数据是高维度、高分辨率、高密度的数据,它可以捕捉到目标在空间和时间上的细微变化,因此需要有一种有效的方法来区分和关联不同帧中的相同或者不同目标。跟踪ID就是一种简单而有效的方法,它可以通过给每个目标分配一个唯一的编号来实现目标之间的对应和区分。

  • 其次,由于K-Radar数据集还提供了其他传感器的数据,例如激光点云数据、相机图像数据和GPS/IMU数据,这些数据可以提供更丰富和更准确的目标和环境信息,因此需要有一种有效的方法来实现不同传感器之间的数据融合和协同。跟踪ID就是一种简单而有效的方法,它可以通过给每个传感器检测到的目标分配相同或者不同的编号来实现目标之间的匹配和融合。

  • 最后,由于K-Radar数据集是一个公开的数据集,它可以被广泛地用于研究和开发自动驾驶相关的算法和应用,因此需要有一种有效的方法来评估和比较不同算法和应用的性能和效果。跟踪ID就是一种简单而有效的方法,它可以通过比较算法输出的目标编号与真实编号之间的一致性和准确性来评估算法的性能和效果。

相关工作

在现有的数据集中,本文的K-Radar数据集包含的场景最丰富,数据量也大于多数数据集,且同时提供了雷达的4D点云和4D张量。

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第2张图片

    • GPS和RTK的区别
      • 定位原理不同:GPS定位的基本原理是,测量出已知位置的卫星到地面GPS接收器之间的距离,然后接收器通过与至少4颗卫星通讯,计算与这些卫星间的距离,就能确定其在地球上的具体位置1。RTK定位的基本原理是,在基准站上安置1台接收机为参考站,对卫星进行连续观测,并将其观测数据和测站信息,通过无线电传输设备,实时地发送给流动站,流动站GPS接收机在接收GPS卫星信号的同时,通过无线接收设备,接收基准站传输的数据,然后根据相对定位的原理,实时解算出流动站的三维坐标及其精度3。

      • 定位精度不同:普通GPS的定位精度≥1米,信号误差有50%的概率会达到2米以上2。这是由于GPS信号在传播过程中受到大气层、卫星星历、卫星钟差、多路径效应等因素的影响而产生的误差2。RTK能够通过对两个测量站载波相位观测量进行实时差分处理,消除或减小这些误差因素的影响,从而达到厘米级甚至毫米级的定位精度4。

      • 定位方式不同:GPS定位可以分为单点定位和差分定位两种方式。单点定位是指只使用一个GPS接收机进行定位,这种方式简单方便,但精度较低;差分定位是指使用两个或多个GPS接收机进行定位,其中一个或多个作为参考站放置在已知坐标点上,另一个作为流动站放置在待测点上,通过比较参考站和流动站之间的观测值来消除或减小误差因素,从而提高定位精度。差分定位又可以分为静态、快速静态、动态等方式1。RTK定位属于动态差分定位方式,它可以在野外实时得到厘米级定位精度,并且不需要事后进行解算4。

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第3张图片

研究方法

数据采集和分配

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第4张图片

数据校准

  • 论文使用了一种基于激光点云和相机图像的空间校准方法,以及一种基于GPS/IMU和雷达信号的时间校准方法,来实现不同传感器之间的同步和配准。空间校准方法利用了激光点云和相机图像之间的特征匹配和变换估计,以及激光点云和4DRT之间的功率匹配和旋转估计,来确定不同传感器之间坐标系或参考系之间的转换关系。时间校准方法利用了GPS/IMU提供的时间戳和位置信息,以及雷达信号提供的多普勒频移信息,来确定不同传感器之间的时间延迟和速度差异。

    • 空间校准

      • 相机-激光雷达校准:论文使用了一个棋盘格图案作为校准目标,并同时拍摄了图像和点云。论文在图像和点云中检测了棋盘格的角点,并使用最近邻搜索来进行匹配。然后,论文使用最小二乘法来估计相机和激光雷达之间的刚体变换矩阵。论文重复了这个过程,对所有四个相机进行了校准,并得到了四个变换矩阵。

      • 激光雷达-4DRT校准:论文使用了一个旋转物体作为校准目标,并同时采集了点云和4DRT。论文使用聚类算法从点云中分割出旋转物体,并使用射线追踪方法将其投影到4DRT上。然后,论文使用功率匹配方法来估计激光雷达和4DRT之间的旋转矩阵。论文假设激光雷达和4DRT之间没有平移,因为它们安装在同一个平台上,距离很小。

    • 时间校准

      • GPS/IMU-雷达校准:论文使用了一个恒速运动作为校准场景,并同时记录了GPS/IMU数据和雷达信号。论文从GPS/IMU数据中提取了时间戳和位置信息,从雷达信号中提取了多普勒频率。然后,论文使用最小二乘法来估计GPS/IMU和雷达之间的时间延迟和速度差异。论文假设在校准场景中没有加速度或旋转,因为它们相比于速度可以忽略不计。

      • GPS/IMU-激光雷达校准:论文使用了一个变速运动作为校准场景,并同时记录了GPS/IMU数据和点云。论文从GPS/IMU数据中提取了时间戳和速度信息,从点云中提取了速度信息,使用运动估计方法。然后,论文使用互相关方法来估计GPS/IMU和激光雷达之间的时间延迟。论文假设在校准场景中没有旋转,因为它相比于平移可以忽略不计。

数据可视化

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第5张图片

    • (1) 沿多普勒维度计算功率的平均值

      • 对于每一个距离、方位和仰角单元,计算其在多普勒维度上所有单元的功率值的算术平均,并将其作为该单元的功率值

    • (2) 使用三维双线性插值将极坐标转换为笛卡尔坐标

      • 对于每一个水平、垂直和深度单元,找到其在极坐标系中对应的最近四个单元,并根据它们之间的距离和角度权重,计算其功率值的双线性插值,并将其作为该单元的图像值

    • (3) 沿一个轴计算功率的平均值并绘制对数尺度的热图

      • 对于每一个水平和垂直单元,计算其在深度维度上所有单元的图像值的算术平均,并将其作为该单元的图像值。然后,论文使用对数尺度来增强图像中低功率区域的可见性,并使用热图来显示图像中不同功率区域的颜色

    • https://stackoverflow.com/questions/20769011/converting-3d-polar-coordinates-to-cartesian-coordinates

数据标注

  • 论文使用了一种基于激光点云和相机图像的3D边界框标注方法,以及一种基于4DRT的3D边界框标注方法,来为每个场景中的物体提供精确的3D边界框和跟踪ID。3D边界框标注方法利用了激光点云和相机图像提供的高分辨率和高密度的目标信息,以及4DRT提供的高维度和高稳定性的目标信息,来实现目标的检测、分类、分割和定位。跟踪ID标注方法利用了4DRT提供的多普勒维度信息,以及GPS/IMU提供的位置和速度信息,来实现目标的识别、关联和跟踪。

    • 论文使用了一种基于激光点云和相机图像的3D边界框标注方法,以及一种基于4DRT的3D边界框标注方法,来为每个场景中的物体提供精确的3D边界框和跟踪ID。这两种方法分别利用了激光点云和相机图像提供的高分辨率和高密度的目标信息,以及4DRT提供的高维度和高稳定性的目标信息,来实现目标的检测、分类、分割和定位。

    • 论文使用了一个半自动的标注工具,来实现激光点云和相机图像的3D边界框标注。该工具允许同时在两种模态下进行标注,并提供了一些功能来辅助标注过程,例如自动目标检测、手动目标编辑、跨模态目标投影和多视角目标验证。论文在八个类别中进行了标注:汽车、卡车、公共汽车、摩托车、自行车、行人、动物和交通标志。论文还为每个标注的物体分配了一个唯一的跟踪ID,用于在帧序列中跟踪物体。

    • 论文使用了一个手动的标注工具,来实现4DRT的3D边界框标注。该工具允许独立地在4DRT上进行标注,并提供了一些功能来辅助标注过程,例如4DRT可视化、目标选择、目标编辑和目标验证。论文在同样的八个类别中进行了标注,并为每个标注的物体分配了相同的跟踪ID。论文使用了空间和时间校准结果来对齐4DRT与激光点云和相机图像,并使用激光点云和相机图像的标注作为参考来指导4DRT的标注。

数据评估

  • 论文使用了一种基于4DRT的目标检测神经网络(NN)作为基准测试,以及一种基于激光点云的目标检测神经网络作为对比测试,来评估K-Radar数据集的性能和效果。目标检测神经网络利用了4DRT或激光点云作为输入,输出每个场景中物体的3D边界框和置信度。论文使用了常用的目标检测评价指标,例如平均精度(AP)、平均召回率(AR)、平均IOU(AIoU)等,来比较不同传感器、不同天气、不同路况下的目标检测结果。论文发现,4D毫米波雷达相比激光雷达,在恶劣天气下具有更高的稳定性和鲁棒性。

    • 基于4DRT的目标检测神经网络(NN)是论文提出的一个新颖的方法,它利用了4DRT提供的高维度和高稳定性的目标信息,来实现从4DRT到3D边界框的直接映射。

      • 预处理模块:该模块用于将4DRT从极坐标系转换为笛卡尔坐标系,并降低其维度和分辨率,得到一个三维图像张量(3DIT)。该模块使用了论文提出的一种新颖的插值方法,即三维三次样条插值(3D-SI),来保留4DRT中的细节信息。

      • 特征提取模块:该模块用于从3DIT中提取高层次的特征表示,得到一个三维特征张量(3DFT)。该模块使用了一个基于卷积神经网络(CNN)的子网,来对3DIT进行多尺度和多角度的卷积操作。

      • 区域建议模块:该模块用于从3DFT中生成候选的3D区域,并对其进行打分和筛选,得到一组高质量的3D区域建议(3DRP)。该模块使用了一个基于区域建议网络(RPN)的子网,来对3DFT进行滑动窗口扫描和锚框匹配。

      • 边界框回归和分类模块:该模块用于对每个3DRP进行边界框回归和分类,得到最终的3D边界框和类别标签。该模块使用了一个基于全连接层(FC)的子网,来对3DRP进行特征池化和预测输出。

    • 基于激光点云的目标检测神经网络是论文采用的一个已有的方法,它利用了激光点云提供的高分辨率和高密度的目标信息,来实现从激光点云到3D边界框的间接映射。

      • 预处理模块:该模块用于将激光点云进行体素化和特征化,得到一个三维体素张量(3DVT)。该模块使用了一个基于体素滤波器(VF)的方法,来对激光点云进行降采样和特征提取。

      • 特征提取模块:该模块用于从3DVT中提取高层次的特征表示,得到一个三维特征张量(3DFT)。该模块使用了一个基于稀疏卷积神经网络(SCNN)的子网,来对3DVT进行稀疏卷积操作。

      • 区域建议模块:该模块用于从3DFT中生成候选的3D区域,并对其进行打分和筛选,得到一组高质量的3D区域建议(3DRP)。该模块使用了一个基于区域建议网络(RPN)的子网,来对3DFT进行滑动窗口扫描和锚框匹配。

      • 边界框回归和分类模块:该模块用于对每个3DRP进行边界框回归和分类,得到最终的3D边界框和类别标签。该模块使用了一个基于点云分割网络(PSN)的子网,来对3DRP进行点云分割和预测输出。

实验结果

1.4D雷达张量 (4DRT)数据,其中包含沿多普勒、范围、方位和高度维度的功率测量,以及精心注释的道路上物体的3D边界框标签。K-Radar包括恶劣天气(雾、雨和雪)下的各种道路结构(城市、郊区道路、小巷和高速公路)

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第6张图片

    • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第7张图片

2.经过精心校准的高分辨率激光雷达、环。作者提供了基于4DRT的物体检测基线神经网络,并表明高度信息绕立体相机和RTK-GPS的辅助测量

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第8张图片论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第9张图片

3.基于4DRT的物体检测基线神经网络,并表明高度信息绕立体相机和RTK-GPS的辅助测量对于3D物体检测至关重要。通过将基线NN与类似结构的激光雷达神经网络进行比较,作者证明4D雷达是恶劣天气条件下更强太的传感器

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第10张图片

  • 论文阅读 | K-Radar: 4D Radar Object Detection for Autonomous Driving in Various Weather Conditions_第11张图片

思考与展望

限制

  • DRT的FOV覆盖限制

    • K-Radar在正向提供4D雷达测量,视场为107度。与激光雷达和相机的360度视场相比,测量覆盖范围更有限。这种限制源于四维密集测量的4DRT的尺寸,与二维相机图像或三维LPC相比,4DRT需要更大的内存来存储数据。

你可能感兴趣的:(文献阅读,自动驾驶)