深度学习多模态融合_综述:3D目标检测多模态融合算法

点击上方“计算机视觉life”,选择“星标”

快速获得最新干货

作者丨蒋天园, 来源丨计算机视觉工坊, 编辑丨极市平台

导读

 

本文是一篇关于3D目标检测中多模态融合方法的综述,总结了多模态融合的难点和现有研究中的一些方法。

0 前言

本篇文章主要想对目前处于探索阶段的 3D目标检测中多模态融合的方法 做一个简单的综述,主要内容为对目前几篇研究工作的总结和对这个研究方面的一些思考。 在前面的一些文章中,笔者已经介绍到了多模态融合的含义是将多种传感器数据融合。在3D目标检测中,目前大都是将lidar和image信息做融合。在上一篇文章中,笔者介绍到了目前主要的几种融合方法,即early-fusion,deep-fusion和late-fusion,并介绍了一种基于Late-fusion的融合方法。但是在大多数研究工作中,都是以deep-fuion的方法为主要的融合策略。

1 背景知识

1.1 多模态融合的主要难点

难点一:传感器视角问题

3D-CVF(ECCV20)的研究提出的做fusion的对做融合工作最大的问题即是在视角上的问题,描述为如下图所示的问题,camera获取到的信息是“小孔成像”原理,是从一个视锥出发获取到的信息,而lidar是在真实的3D世界中获取到的信息。这使得在对同一个object的表征上存在很大的不同。 深度学习多模态融合_综述:3D目标检测多模态融合算法_第1张图片

难点二 数据表征不一样

这个难点也是所用多模态融合都会遇到的问题,对于image信息是dense和规则的,但是对于点云的信息则是稀疏的、无序的。所以在特征层或者输入层做特征融合会由于domain的不同而导致融合定位困难。

难点三 信息融合的难度

从理论上讲,图像信息是dense和规则的,包含了丰富的色彩信息和纹理信息,但是缺点就是由于为二维信息。存在因为远近而存在的sacle问题。相对图像而言,点云的表达为稀疏的,不规则的这也就使得采用传统的CNN感知在点云上直接处理是不可行的。但是点云包含了三维的几何结构和深度信息,这是对3D目标检测更有利的,因此二者信息是存在理论上的互补的。此外目前二维图像检测中,深度学习方法都是以CNN为基础设计的方法,而在点云目标检测中则有着MLP、CNN,GCN等

你可能感兴趣的:(深度学习多模态融合)