基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

讲师:Edison

课程内容:基于多传感器后融合的目标跟踪(0.课前导学 1.自动驾驶中的融合跟踪)

笔记作者:王汝嘉

  • 0.课前导学

    • 0.1 主讲人介绍

    • 0.2 课程关键词

    • 0.3 学习资料推荐

  • 1. 自动驾驶中的融合跟踪

    • 1.1 自动驾驶中的感知任务

    • 1.2 多传感器融合的主要方法

    • 1.3 多传感器融合跟踪的基本流程

    • 1.4 多目标跟踪的数据集与性能指标

以上内容均出自《多传感器融合与多目标跟踪全栈教程(Camera/Lidar/Radar)》

0.课前导学

0.1 主讲人介绍

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第1张图片

0.2 课程关键词

0.2.1 多传感器
基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第2张图片

Waymo的自动驾驶无人车某一代的传感器配置

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第3张图片

一类比较通用的 量产车的传感器方案

工业界传感器方案现状:

目前,业界大多数科技公司的方案(Tesla除外)均使用两个或三个传感器,无论是L2还是L4。

预算较高的L2或者L4方案会使用环视摄像机、激光雷达、毫米波雷达这三个传感器。

预算较低的L2方案会使用环视摄像机、毫米波雷达这两个传感器。因为激光雷达是非常昂贵的。

总之,目前多传感器融合感知是工业界的主流方案。

为什么要使用多传感器呢?

一,可以利用多传感器的优势互补

二,可以利用多传感器提供冗余,保障感知的稳定性和鲁棒性。

0.2.2 后融合
基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第4张图片

后融合是相对于前融合的概念。

后融合:

刚才提到的传感器对于周围的物理世界都有原始观测(RAW DATA)

比如摄像头采集的RGB图片数据,激光雷达和毫米波雷达通过回波采集的点云数据。

我们针对于每类传感器的原始数据分别检测出道路环境上的物体或目标,再将检测出的目标进行融合,得到道路上交通参与者状态的最终估计,这种方式就是后融合。

为什么学习和使用后融合:

1.接口定义通用;

不同的传感器的原始观测数据是不一样的,但是观测到的目标的格式可以制作成一样的。(接口)

2流程框架清晰;

3.理论和方法相对成熟稳定;

理论和方法具有扎实的数学基础作为支撑。

4.便于工程化;

5.是目前工业界的主流方案。

0.2.3 目标跟踪
基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第5张图片

当我们根据多个传感器的结果,检测出了道路场景中目标的位置,这就可以完成决策规划任务了吗?

不行的。

为了完成自动驾驶任务,除了每一帧中的目标检测结果以外,还需要:

(目标的轨迹)

1.每个目标的唯一编号;(唯一的跟踪ID)

2.每个目标的动态信息(速度、加速度、角速度等);

只有这样,下游模块才能预测出目标未来的运动轨迹,进而规划自车的行驶轨迹。

除此以外,单帧检测虽然可以给出目标的位置,但是,其存在误差较大,易受遮挡影响等问题。

所以需要多帧跟踪

3.多帧跟踪来减小估计误差(位置、朝向、类别、尺寸等);

4.保持对于局部遮挡的目标的感知结果。

在相对遮挡的情况下,保持一个连续的,稳定的检测。

总的来说,目标跟踪对于自动驾驶来说,是一个必不可少的模块,而不是一个可以选择的模块。

0.2.4 课程内容安排

1.自动驾驶中的融合跟踪任务

跟踪需要达到什么样的目标?有哪些基本的方法?前融合和后融合的区别是什么?

然后会分模块的介绍,自动驾驶多传感器融合目标跟踪中的主要部分和相关的算法、技术。

分为以下三个模块:

2.目标跟踪中的状态估计

3.目标跟踪中的数据关联

4.目标跟踪中的轨迹管理

再往后,会介绍一些工程实践和算法应用的内容。

分为以下两个部分:

5.基于单传感器的多目标跟踪

6.基于多传感器后融合的多目标跟踪

0.3 学习资料推荐

1.量产中的多传感器后融合方案

  • Object-Level Fusion for Surround Environment Perception in Automated Driving Applications (2017)

第一篇是宝马联合培养博士的一篇学位论文,他主要讲了多传感器后融合的主要框架,可以帮助大家了解最基本的设计的思维。

2.状态估计与几何变换

  • 《机器人学中的状态估计》/《State Estimation for Robotics》,Timothy Barfoot;

  • 《概率机器人》/《Probabilistic Robotics》,Sebastian Thrun、Wolfram Burgard、Dieter Fox;

因为目标跟踪的核心技术是状态估计,其中会涉及一些几何变换的算法和知识,加强这方面的数学基础会有助于大家处理更为复杂的工程问题。

推荐的两本书是状态估计和几何变化里的非常经典的书籍,非常推荐大家阅读。

1. 自动驾驶中的融合跟踪

1.1 自动驾驶中的感知任务

1.1.1 感知任务分类

自动驾驶任务需要感知自车周围的外部环境信息,包括静态信息和动态的交通参与者。具体来说可以分为以下三个子任务:

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第6张图片

目标检测与跟踪:

检测和跟踪自车周围的目标。

  • 那什么样的才算作目标呢?

一般定义为交通参与者,分为动态参与者和静态参与者。

动态参与者:正在过马路的车辆,正在路上走的行人。

静态参与者:道路上的锥形桶,停在路边的自行车。

(他们虽然是静态的,但是是可以移动的。所以也是我们需要进行检测和跟踪的目标)

总的来说,所有可以移动的物体,都应该成为目标检测和跟踪的对象。

比如,卡车上掉下来的石块,在路上滚动。这当然也是需要我们进行检测和跟踪的目标!而且是非常重要的场景。Corner Case!

语义分割:

主要来识别不可移动的静态环境信息,比如地面,马路牙子,路边的栅栏,马路边的树木等等。

以此来辅助形成可行驶的区域。

场景理解:

道路施工指示,路边的限速牌,红绿灯等。用来更好的进行运动规划和决策。

这门课程主要关心的是三大任务中的 目标检测与跟踪。

1.1.2 用于自动驾驶感知的传感器

为了实现目标检测与跟踪,我们采用的传感器主要有以下三类

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第7张图片

其实,超声波雷达也常常被使用,但它主要用于泊车场景,在行车场景中几乎不会使用,所以这里不专门进行介绍。上图列举的三类传感器各有其优劣,并不存在绝对胜出,下面我们具体来介绍:

摄像头:

通过光学成像来感知周围环境。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第8张图片
  • 优势:

    • 被动式检测

      不主动发出探测信号

    • 功率低,价格低

    • 分类,识别的准确率高

      得益于图像中携带丰富的纹理和颜色信息

    • 高分辨率

      一般能达两百米以上

    • AI技术成熟

      计算机视觉发展成熟

  • 劣势:

    • 依赖光照和可见性

      光线过暗或者过亮,雾天可见性差等

    • 受阴影和反射影响

    • 镜头容易变脏

    • (单目)无深度信息

      对于自动驾驶来说最严重的问题。

      尽管可以通过一些手段来恢复出一些目标的深度估计的值,比如进大远小的效应,地面平坦假设

      但是,其获取的深度信息的准确性和稳定性,还是很难满足于自动驾驶的要求。

      那双目摄像头可以获得较为准确的深度信息啊,用双目摄像头不就可以解决这个问题了吗?

      不是的,双目摄像头对于标定的准确性非常高,在实际应用上有很多很多的问题。

激光雷达:

通过发送激光束和接收回波来探测外部世界。近年来自动驾驶行业最热门的传感器。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第9张图片
  • 优势:

    • 天然的3D信息

      能直接获取到精准的深度信息。由于每个激光束的方位角和俯仰角是已知的,所以可以天然的得到每个反射点的3维位置。

    • 不受光照条件的影响

      激光雷达的(激光)工作频率和可见光不在一个频率,所以其几乎不受可见光的影响。

      不过,不同颜色和材质的车身涂料会影响激光雷达的点云性质。也就是同一辆车,采用不同的涂料,激光雷达采集到的点云的纹理和强度是可能存在不同的。感兴趣的同学可以自己搜索相关资料。

    • 测量精度很高

    • 可以达到较高分辨率

      如果不惜成本可以做到很高的分辨率,比如256线的机械式激光雷达。

      同时,激光雷达的探测距离也比较远。

    • AI技术较为成熟

  • 劣势:

    • 价格昂贵

      是3D传感器中成本最高的,价格非常昂贵。

      虽然近些年激光雷达硬件发展较快,价格在降低,但是相比于其他两类传感器,还是很贵的。

    • 没有外观纹理信息

      激光雷达的回波虽然有反射强度这个信息,但是还是缺乏像视觉那样丰富的外观和纹理信息。

      其对于分类和识别的能力是相对于比较弱的。

    • 在雨雪雾天气下性能较差

      会产生的大量的雾点和噪点,性能会退化很多。

    • 机械式旋转部件

      目前性能比较好的激光雷达,基本上还是机械式的旋转部件。

      所以其使用寿命较短,也比较容易损坏。

毫米波雷达:

其原理和激光雷达类似,也是发送电磁波信号,然后接收回波。

但是其工作频率比激光雷达低很多,一般在10 GHZ ~ 200 GHZ之间。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第10张图片
  • 优势:

    • 直接测量位置和速度

      基于多普勒效应,可以直接测量目标和传感器的相对速度。

      本质上是测量目标和传感器之间的径向距离的变化率,这个变化率在某种意义上就等价于目标的相对速度。

      测量速度也是毫米波雷达的最大优势。

    • 价格较低

    • 不受光照条件影响

      作为一种主动式探测器。

    • 不受恶劣天气影响

      其频率相对较低,波长相对较长。相对于激光雷达很有优势。

    • 工作状态稳定,技术相对成熟

  • 劣势:

    同时还要注意的是,其基于多普勒效应检测出来的,其实是径向的距离变化率或者说相对速度。

    所以其对切向速度检测比较差。在最极端的情况下,自车静止不动吗,前方有一个目标,其以自车为圆心做圆周运动,

    在这种情况下,该目标的速度在每一个瞬间都是相对于自车切向的速度,毫米波雷达就无法分辨这个目标和一个静止的目标,在速度上的差异。

    传统的毫米波雷达 是3D (x,y,v) v是速度,其没有高度信息。

    现在比较前沿的是4D毫米波雷达 (x,y,z,v) 具有高度信息。但是其点云也非常稀疏。

    • 测量结果带有较大的噪声

      噪声较大,检测精度不太高。尤其是基于信号的反射,绕射等情况,导致其误检会比较多。

    • 对目标分类的能力很差(相对于摄像头和激光雷达而言)

      因为分辨率低,点云十分稀疏,所以分类能力很差。

    • 观测分辨率较低 (相对于摄像头和激光雷达而言)

    • 小目标检测能力较差(相对于摄像头和激光雷达而言)

    • AI技术研究刚起步

1.1.3 多传感器融合方案

目前学术界和工业界对于自动驾驶感知系统的设计基本达成了一个共识,采用多传感器融合方案。除了Tesla坚持纯视觉方案以外,其他的L2~L4自动驾驶公司几乎都采用了两种以上的传感器,这是经过实践后,证明有效的方案,其主要有以下三个优点:

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第11张图片

冗余:

多传感器独立工作,增强了自动驾驶系统的冗余性,个别传感器出现故障,不至于导致整个感知系统的瘫痪,从而增强整个自动驾驶系统的安全性和鲁棒性。

互补:

激光雷达的优势在于位置检测精准,缺陷在于分类的能力较弱,容易收到雨雪雾天气的影响。

摄像头的优势是准确率比较高,缺点是没有深度信息,也很依赖光照条件。

毫米波雷达优势是不受光照和天气影响,又能直接获得位置和速度信息,缺点是检测精度不高。

这些传感器的优势正好互补,让感知系统不存在特别明显的短板。

协同:

有时,仅通过一类传感器,很难判断出一个目标的状态、类别、尺寸。

多个传感器协同感知,才能得到一个更加完整的感知的结果。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第12张图片

经过上述的分析讨论,我们可以把自动驾驶的上下边界,大致的描绘出来。这里主要关注的是感知的目标检测和跟踪的任务。

我们希望设计出这样一个感知模块:

它的输入(上游),是各类传感器的原始数据,例如摄像头采集的RGB图像,激光雷达和毫米波雷达采集的点云。

它的输出(下游),是自车周围的交通参与者的各项状态,包括位置、速度、加速度、朝向、尺寸、类别等。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第13张图片

总的来说,自动驾驶感知的目标检测和跟踪任务就是把原始传感器数据,转化为,持续跟踪的所有交通参与者的状态的过程。

1.2 多传感器融合的主要方法

总体而言,多传感器融合可以分为以下两大类:

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第14张图片

第一类是通过端到端的人工智能模型实现目标检测和跟踪。

第二类是先完成目标检测,然后基于一个显示的目标检测的结果,再进行目标跟踪,从而得到一个显示的状态轨迹。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第15张图片

端到端检测与跟踪在研究界是一个较为前沿的方向。

输入:原始数据。

输出:跟踪轨迹。

在这个过程中,可能有显示的检测结果,也可能没有。

但是一般都没有显示的数据关联和状态预测更新操作。(这里的数据关联、状态更新、状态预测具体指的是什么,会在后面进行介绍)

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第16张图片

先检测再跟踪(track by detection)是更为常见的范式。

这里又可以细分为两大类:前融合和后融合。

其实这种分类的方法和名称有很多种,没有太统一。

有的人叫数据层次融合、特征层次融合、目标层次融合。有的人又分为低级别融合、中级别融合、高级别融合。

说法各不相同,但是本质上是一样的。我们不需要太过纠结这些说法。

由于存在目标检测和目标跟踪两个阶段,那么多传感器融合可以发生在任何一个阶段。

如果发生在目标检测阶段,也就是说,把多个传感器的数据拿到一起,只做一次目标检测,得到一种数据中所有目标的检测结果,那么这种方案就叫做前融合。其一般在原始信号层级或者特征层级融合了多种传感器的信息,所以也叫做数据层次融合、特征层次融合,或者说低级别融合、中级别融合。

在前融合中,到目标跟踪这个阶段的时候,如果一个目标在这一帧中被检测到了,那么它只会有一个检测结果,它不会每个传感器都有一个检测结果。因为前融合中是所有传感器数据拿到一起只做一次目标检测,只有一个检测结果列表。

相应的,如果多传感器融合发生在目标跟踪的阶段,也就是每个传感器的数据各自做一次目标检测,每种检测算法各自都有一个检测结果列表,然后这些结果再拿到目标跟踪的阶段去融合,这就是后融合。后融合也被成为目标层次融合或者高级别融合。

我们换个视角再来看一下前融合和后融合的区别。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第17张图片

对于每个传感器来说,其目标检测过程中信息的聚合和呈现可以有三种形态。

第一种形态是原始数据形态,通过对原始数据进行特征提取,得到第二种形态——特征形态,最后基于原始数据和特征,由模型检测出目标,得到第三种形态——目标形态。

前融合主要是在每种传感器的前两种形态,原始数据形态和特征形态进行融合。

后融合主要是在每种传感器的第三种形态——目标形态,进行信息融合。

他们之间的共同点是都要完成信息的融合,即检测出周围环境中有哪些交通参与者。他们所融合的信息是相同的,但是信息所承载的形态是不一样的

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第18张图片

学术界对于分类的方式和名称也各不相同,在一篇论文里可能有它自己独特的叫法。

但是分为数据、特征、目标三个层次和其他分类方式,在本质上其实是相同的

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第19张图片

前融合和后融合相比,其优势和劣势也各不相同。

由于信息在从数据到特征再到目标的过程中是不断缺失的,所以前融合直接在数据和特征层次上进行融合,保留了丰富的传感器原始信息,理论上可以达到更高的检测精度。实际上性能如何,取决于你的算法(模型)设计。

前融合的检测融合一般采用端到端的网络。

(注意这里指的是检测的融合,不包括目标跟踪,这里还是在先检测再融合的范式下来讲述的)

所以理论上如何有足够优质的数据,那么可以端到端的网络会有很强的泛化性,形式上也更加优美。

前融合的劣势是过于依赖深度学习网络,可解释性较差,技术尚未完全成熟,对于Corner Case的解决周期较长。

而前融合的劣势正是后融合的优势,后融合的流程、理论、算法、工程化都相对而言比较成熟。其有着扎实的数学理论的支撑,

也有利于再不同的传感器方案中迁移。

后融合的劣势在于比较依赖基于规则的逻辑,如果规则不够完善,那么就会出现漏网之鱼,这样就需要打补丁,然后越来越多的补丁就会让系统难以维护。同时,由于后融合采用了信息高度聚合的检测结果,它损失了信号和特征中包含的较为丰富的原始信息,所以理论上其检测精度可能会受此影响。

1.3 多传感器融合跟踪的基本流程

下面,我们具体看一下多传感器后融合的基本流程:

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第20张图片

对于后融合来说,它是将每个传感器,先做一次目标检测,拿到每种传感器的目标检测结果之后,然后将检测结果放在一起做信息融合和跟踪。

所以,对于每种传感器来说,都会有自己的单独的检测算法和流程。比如说,摄像头,根据图像,经过图像检测算法,得到了图像检测结果或者叫图像目标(Camera objects)。然后图像目标经过跟踪算法得到图像的目标轨迹。(注意,这里的图像轨迹跟踪和形成图像轨迹不是必须的,有的后融合框架中没有这一步。这是一个可选的配置。)最后,图像目标列表或者说图像轨迹列表会进入最终的跟踪和融合的模块,来完成后融合的算法。

对于LiDAR,Radar也是相同的道理,基于原始点云,通过自己的独立的检测算法,得到自己这种传感器独立检测的结果,也就是一种目标列表。然后经过自己的单传感器的跟踪模块,得到自己的轨迹。最后送到最终的跟踪和融合模块之中,来得到最终的对于目标轨迹的估计。

下面我们来看最终的跟踪和融合模块的内部情况,下面这张流程图就反应了这个模块内部的细节情况:

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第21张图片

该跟踪和融合模块的核心分为两个部分:**数据关联(Data Association)和状态更新(Update Track States)**。

假设在 时刻,已经维护了 个跟踪轨迹(我们把一个跟踪轨迹叫做一个track,它是你维护的对于道路上的交通参与者的最终估计)。同时,也是在   时刻,收到了来自某一个传感器的 个检测结果(这里我们把传感器的检测结果统称为measurement,也就是说不管该检测结果来自于哪一类传感器,其对于我们的跟踪和融合框架来说,其都是一个观测量。它是某个传感器对于真实存在的某个交通参与者的检测。需要注意,它不是原始数据,而是对于目标的检测,即我们刚才提到的每个传感器自己的检测结果。)

我们首先需要对 个 tracks 和 个measurements 进行关联匹配。有一些 track 和 measurement 能够关联上,也就是说我们估计的这些真实存在的目标在这一帧有相应的观测量。我们就通过某种方法将他们匹配上,匹配上之后,我们就会用这些measurement,也就是这一帧检测的结果来更新已经存在的目标轨迹。也会有一些measurements没有关联到任何已经存在的track,那么我们会认为这是传感器看到的新的目标,因为以前没有看到过,所以没有它对应的 track,所以我们就用这些measurements初始化来建立新的tracks。

上边更新后的track和新建立的track汇总之后,可以根据先验的运动模型(其大概假设这一类的目标符合什么样的物理学上的运动规律),根据这些先验的知识,把它们的状态预测到下一个时刻,即 时刻。在 时刻,我们也会有新的观测数据,即传感器的检测结果,我们就会重复在 时刻的整个跟踪和融合的流程,开始下一帧的跟踪和融合。

这里的track,它都包含了历史上所有的传感器的观测的信息,所以在状态更新(Update Track States)模块之中,体现了信息的融合,也就是我们说的后融合。

总结一下,多传感器后融合,有着三项核心的工作,分别时:状态估计,数据关联,轨迹管理

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第22张图片

对于状态估计来说,是要在每个给定的时刻,给出对于目标真实状态的最优估计。那么随之而来的问题就是,怎么去定义一个最优的估计?什么是最优?更进一步,定义了最优之后,如何得到想要的最优的估计呢?这是状态估计的核心问题。

对于数据关联来说,它是要在每个给定的时刻,确定跟踪目标与传感器观测之间的最优的对应关系。因为有噪声的存在,有误差的存在,他们之间对应不是那么确定,那么唯一,所以我们要找一种最优的对应关系。它关键在于,如何去定义这个最优呢?什么叫做最优的关系?既然讲到最优,那么可能就有次优,有哪些次优的选择呢?意味着在这个过程中,我们可能要损失些什么呢?以及如何高效地完成这种最优的匹配关联?

对于轨迹管理来说,它是要当真实交通参与者进入感知范围时,为其创建唯一的跟踪轨迹,当其离开感知范围时,删除这条唯一轨迹。这里的关键在于,怎么确定要不要创建这条轨迹?如何创建这样一条轨迹?如何决定是否删除一条轨迹?

以上这些关键的问题,我们会在后面的课程讲解中进行深入的讲解和分析。

1.4 多目标跟踪的数据集与性能指标

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第23张图片

KITTI官方提供了一个纯视觉的Tracking Benchmark

这里的训练场景指的是一段视频或者说是一个图像序列。

这个Tracking Benchmark 又具体分为三项评估任务,每一项都是独立的。

第一个是纯2D bounding box跟踪,第二项是2D的bounding box加上语义分割跟踪,第三项是逐像素的语义跟踪。

KITTI目前仅提供了一个2D的跟踪数据集。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第24张图片

nuScenes官方提供了一个Tracking Task,它提供了基于camera, LiDAR,Radar的3D检测结果作为输入,要求实现一个3D的多目标跟踪。这个任务和KITTI中的跟踪基准不同,KITTI仅有2D视觉上的跟踪,nuScenes提供了一个基于多传感器的3D检测结果,基于这个检测结果进行3D的多目标跟踪。这里有一段代码,是从官方代码里截取的,这段代码展示了,它要求参与者提交的跟踪目标的信息,这里面包括了目标的位置,速度,尺寸,朝向,类别还有一个唯一的跟踪ID。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第25张图片

Motion Dataset主要用来处理一些预测相关的任务。我们主要用的是Perception Dataset.

其特点是LiDAR的使用比较多,包含一个中距离LiDAR,四个短距离LiDAR.

具体来看,Perception Dataset中一共采集了1950段数据,每一小段数据时长20S,但是频率较高,有10Hz.

在这些数据当中,其一共标注了四个类别,车辆,行人,自行车,指示牌。

总过来说一共有11.8M个2D检测框和12.6M个3D检测框。

此外,其还标注了2D目标和3D目标之间的对应关系,具体来说,同一个目标同时被LiDAR和Camera看到,那么他在LiDAR之间的3D检测框有自己的ID,在Camera之间的2D检测框也有自己的ID,那么waymo的数据集中会提供这同一个目标的两个检测框的对应关系。这种对于对应关系的标注是很不多见的。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第26张图片

最后一个是MOT Challenge,这是一个历史较为悠久的数据集了,其经常组织计算机视觉领域MOT方向比较有影响力的比赛,但是相对于前三个数据集,其更加侧重于视频序列中的行人跟踪,也涉及一些车辆跟踪。

最后我们来看一下评价多目标跟踪性能的指标

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第27张图片

这个图片是从MOT Challenge的官网之中截取的。可以看到他采用的多目标跟踪的metric的种类非常多。

总的来看,这些评价指标主要关注多目标跟踪的两个大方面的性能。

第一个方面是你跟踪的这个目标的状态轨迹,是否正确的匹配上了传感器给出的检测。

第二个方面是你估计的跟踪目标的状态(位置、速度、加速度)和该目标的真实状态(即GT)相比,二者之间的误差有多少。

除此之外,还会有跟踪的误检和漏检的问题,即明明有这个检测,但是没有相应的跟踪(漏检),或者说,没有这个检测,但是给它了跟踪(误检)。这是检测中存在的,跟踪中也存在的指标。还有一些跟踪中特有的指标,像ID SW(Identity Switch),具体来说,我们希望对于一个目标,从进入视野到离开视野的过程之中,其有一个唯一的跟踪ID。如果在这个过程之中更换了ID,这就是我们不希望发生的事情。所以ID SW也是我们关注的重点。

在后面的课程中,我们会重点介绍三个metric,分别是MOTA, MOTP, HOTA.这三个指标,是老师认为目前使用较为广泛,也比较有代表性和针对性的评价指标。它们也涵盖了,刚才提到的目标跟踪的两方面性能。这些指标会在后面的课程中进行详细的介绍。

第一章内容到此结束。

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第28张图片

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第29张图片 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第30张图片

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第31张图片

④【自动驾驶之心】平台矩阵,欢迎联系我们!

基于多传感器的后融合的目标跟踪如何实现?都有哪些基本流程?_第32张图片

你可能感兴趣的:(目标跟踪,人工智能,计算机视觉,机器学习)