爱听歌的周童鞋

四. 基于环视Camera的BEV感知算法-BEVDepth

前言

自动驾驶之心推出的《国内首个BVE感知全栈系列学习教程》，链接。记录下个人学习笔记，仅供自己参考

本次课程我们来学习下课程第四章——基于环视Camera的BEV感知算法，一起去学习下 BEVDepth 感知算法

课程大纲可以看下面的思维导图

0. 简述

本节内容和大家一起学习一个非常好的工作叫 BEVDepth 是旷世研究院的工作

我们还是从以下四个方面展开，算法动机&开创性思路、主体结构、损失函数和性能对比

1. 算法动机&开创性思路

其实 BEV 感知算法我们讲了这么多，核心内容我们也强调了很多次是怎么去构建这个 BEV 空间的表征，我们怎么得到 BEV 呢，输入图像通过图像处理可以得到 BEV，输入点云通过点云处理可以得到 BEV，核心内容是我们怎么把图像特征，怎么把点云特征转换到 BEV 空间当中

那这个表征我们也讲过有很多方式，我们把它分为两类，一类是从 2D 到 3D 的方式，也有从 3D 到 2D 的方式，BEVDepth 是属于从 2D 到 3D 的方式，我们来复习一下，从 2D 到 3D 的映射离不开图像生成原理，如果我们已知相机的内参和外参矩阵且已知 2D 图像像素点 $p$ ，我们将 2D 点 $p$ 投影到 3D 空间是什么呢，是一条射线，如果我们想要做到 2D 点 $p$ 和 3D 点 $P$ 唯一确定关系的话怎么做呢，需要深度值

2D 像素坐标加深度加转换矩阵我们就可以计算得到 3D 世界坐标 $P$ ，所以深度值非常重要，那深度信息要怎么得到呢，现有方法主要可以分为两类，有一类是离散深度分布（例如 LSS），我们将这条射线划分成很多个深度网格，我们去判断我们要映射的像素点 $p$ 落在哪个深度段上的概率最大，是一种概率分布的概念；另外一种叫连续深度估计（例如伪点云），网络会预测我们当前像素点的深度值，是一个确定值，那比如 $p$ 它有一个唯一确定深度 $D$ ，是一个确定的深度估计值

所以按照离散深度分布我们最后做出的映射是什么呢，是从点到线的映射；按照连续深度分布我们做的是什么呢，是从点和点的映射关系，2D 和 3D 空间唯一确定的点与点的关系

OK，那我们想一下上面说的 2D 到 3D 无论是离散分布也好还是连续深度估计也好有没有什么问题呢，是有的，它其实主要问题是深度的不可靠，那也就是说我们这个 $D$ 无论是离散深度分布也好还是连续深度估计也好，我们的 $D$ 值很容易算错，那一旦深度算错了我们的映射其实也就错了，那我们最终构造的 BEV 空间是不是也就错了，我们检测呢也自然不可能对

那这种深度不可靠的原因是什么呢，作者认为呢主要缺少的是没有一个合适的监督信息，我们可以先不讨论伪点云的方式，我们主要还是针对离散深度分布的方法，那也就是说没有真值去告诉网络我们对应的 pixel 应该落在哪个深度。所以第一点那作者认为由于缺乏明确的深度监督很难做出很准确的深度感知结果，那第二点是什么呢，是网络不能充分利用相机的内外参数所以没有办法有效推断像素深度，我们输入深度预测网络的是什么，是图像特征，通过网络我们可以估计深度分布 $D$ ，我们输入的是特征我们没有告诉网络我们当前的相机型号是什么，相机和激光雷达相对应的关系是什么，是没有告诉这个信息的，所以网络仅仅依靠特征去进行深度推断而没有充分利用相机的内外参数，作者认为它也是导致没有办法准确推断像素深度的原因之一，那我们所说的第三点还有一个什么原因呢，效率问题，那比如像基于伪点云的思路需要引入额外的深度估计网络，这个网络其实一般而言比较庞大也比较耗时

因此我们简单总结下现有 2D 到 3D 方式的缺点：

没有明确的深度监督，很难输入准确的深度感知
深度子网络不能充分利用相机的内外参数，无法有效推断像素深度
相同的分辨率输入，相同的主干网络，基于深度的目标检测器速度较慢

所以说 BEVDepth 作者尝试能否使用一种轻量化的结构提供准确的监督，一个是监督另外一个是内外参数从而实现深度准确的预测

所以从动机出发我们也能想到 BEVDepth 关注的核心问题是什么呢，其实是深度估计，那我们怎么将深度估计去做得更准确呢，引入深度监督信息，引入相机内外参矩阵

那 OK 我们再来看看 BEVDepth 的预测和之前讲的 LSS 的结构有什么不同呢，首先从上面的示意图我们能看出来，我们说的 LSS 结构是一种离散深度估计结构，所以呢我们看到的深度图呈现的是网格的模式，都是一小块一小块的网格；而 BEVDepth 看起来是更连续的也更丰富一点

此外 BEVDepth 一个很显著的好处是对于前景位置很明显，那比如从上面的 LSS 图上很难分辨出行人轮廓和车辆轮廓，但相反我们在 BEVDepth 上能够明显的看出车在那哪在哪，那说完动机之后我们再来看一看 BEVDepth 主体结构是怎么做的，是具体怎么设计这个网络的

2. 主体结构

BEVDepth 主体结构如下图所示：

我们看网络还是老套路从输入输出看起，输入是 Multi-view Images 多视角图像，输出预测结果也就是我们要的检测结果，那我们再来看一下具体流程，输入的如果是图像，那么编码网络是什么，是图像编码器，输入图像通过图像编码器我们可以得到图像特征，图像特征怎么用呢，那当然是将图像特征转换到 BEV 空间当中得到 BEV Feature，所以我们中间看到的流程全都是用来做图像到 BEV 空间对应视角转换的

那么图像怎么转换到 BEV 的呢，有了图像特征通过深度估计网络可以得到深度值，然后利用深度值将图像特征对应的映射到 BEV 空间组成 BEV 特征，那么这个深度值预测模块其实是 BEVDepth 的核心内容了

我们先不着急，我们从头开始一个一个看，那首先第一个模块是图像编码器，图像的 Backbone，如上图所示，我们说输入图像通过图像编码器可以得到图像特征，图像编码网络有很多也就是 2D Backbone 有很多，包括 ResNet、ViT、Swin Transformer 等等，也可以使用一些多尺度的策略比如特定金字塔等等，最后我们得到什么，得到的是图像特征，那这就是图像编码模块的功能，非常简单

有了图像特征我们就考虑图像特征要怎么得到 BEV 特征呢，我们说这个过程呢其实离不开视角转换设计，有了图像特征我们可以通过深度估计，离散的也好连续的也好得到深度概率分布值或者具体的深度值，有了深度我们才可以做特征映射，才能转换到 BEV 空间

所以视角转换模块其实包含两个内容，一个是深度估计，一个是特征映射，那我们一个一个看，如上图所示，深度估计网络 Depth Net 其实包含两个输入，一个输入是图像特征，我们得到的图像特征，另一个输入是相机参数 Camera Parameters，内参外参矩阵它都属于相机参数，同时输入到 Depth Net 一个深度估计网络中去预测深度分布，我们得到的是一个深度分布结果。输入图像特征输入相机参数通过深度网络得到深度分布，我们刚才讲解的流程其实就是深度估计这个模块一个主要的流程

那大家可能有个疑问就是我们 Depth Net 应该怎么做，我们接下来看一下详细的 Depth Net 是怎么做的，如上图所示，我们刚刚讲了我们 Depth Net 网络包含两个输入，一个是图像特征 Image Features，一个是参数输入内参输入，输出其实也是两个，一个是经过卷积的特征我们叫 Context，图像通过卷积网络可以得到 Context，图像呢同时经过下面的支路可以得到 Depth

上面支路的图像特征处理很简单直接通过卷积输出 Context，那下面的支路也是通过卷积，只不过多了一个相机参数输入，相机内参要怎么处理，首先相机内参数本身参数维度很小，所以说要通过一个扩维的操作，扩维其实也很简单，一个 MLP 就能搞定的事情，扩到多少维呢，其实是和输入的图像通道有关系的，相机扩展的维度和图像通道维度数量是一样的

为什么这么做呢那也涉及到动机的问题，那像作者这里引入的相机内参矩阵其实更偏向一种权重参数，也就是说相机内参矩阵映射成了一种权重去乘上原始的 Feature，对原始图像特征的通道维度进行加权，那我们说这是什么呢，是通道注意力机制，权重高的通道我们需要重点关注，权重低的通道呢我们可以选择性忽略，完事之后得到了加权特征然后再通过一系列的残差网络，DCN 网络得到最终的深度预测结果

所以这个 Depth 网络它叫 Depth Net，相比而言还是比较轻量的，输入图像特征输入相机内参矩阵，输出深度预测结果和图像 Context 特征

那得到的输出我们来看看是怎么用的呢，在上图中也能看到我们刚才讲 Depth Net 的两个输出，一个是输出图像 Context 另一个是输出我们预测好的深度分布。另外我们一直强调什么，强调 BEVDepth 设计的动机是作者认为以前方法不好的主要原因是缺乏监督信息，那显然 BEVDepth 是包含监督网络的，它的监督是从哪来的呢，从点云过来的，场景的点云信息为深度估计模块提供了深度监督也就是上图中的 Depth Supervision

点云投影到图像上对应的位置，那么这个像素位置就有了点云的深度值作为显式的监督，我们讲显式那就是明确的告诉网络什么是对的什么是错的，我这个 pixel 应该映射到哪，我这个 pixel 不应该映射到哪，而不是让网络去猜我这个映射到底对不对，通过这样一个监督信息其实是辅助了深度预测模块的训练的，让网络可以预测得更准

有了深度有了图像特征可以做什么，可以做转换，那在做转换之前我们还要考虑一个事情，我们得到的这个深度结果一定是好的吗，深度结果是受深度信息监督的，我们这个深度信息监督一定是对的吗，那为什么这么问呢，其实是因为 BEVDepth 作者认为深度监督来源于点云的投影，点云投影到图像依赖什么呢，依赖相机的内参外参转换矩阵，内参我们讲过出厂后基本是固定的，然而外参是会变的，会由于车的抖动产生一定的偏差，那如果外参的转换矩阵存在偏差，点云通过内参外参矩阵投影到的图像像素是不是也就存在偏差了

因此在这种情况下 BEVDepth 作者认为深度监督是存在偏差的而且这个偏差不可避免很难估量，偏差既然不可避免既然很难估量我们就不再在 Depth Net 中处理了，也没有办法去处理，我们通过深度值预测出来之后，引入深度校正网络，如上图所示，额外的 Refinement 去修正外参扰动带来的偏差

通过这个网络之后，我们认为这个网络现在输出的深度已经很准了我们可以做映射了，所以这里就引入了一个映射模块叫 Efficient Voxel Pooling 体素的高效池化。那我们说这个模块其实包含两个概念，一个概念是体素池化，体素池化很好理解无非是和我们讲的 2D 图像上的网格池化类似，使用了一个最大值或者平均值等等的处理方式，那这里体素池化是用在体素上面。另外提出的一个词叫 Efficient 高效，什么叫高效呢，这个词怎么理解

我们一起来看一下体素高效池化这个模块详细的结构，如下图所示：

上面的右图是作者提出的体素高效池化，左图是我们本次课程当中提到过很多次的离散深度分布估计，将 2D 像素特征映射到 3D 空间特征的一种方式，图像上的每一个像素点映射到 3D 空间是一条射线。那从 BEVDepth 的框图也能看到一个相机对应的像素点到空间位置是一条射线，那这个射线通过离散化的网格在不同位置有着不同概率的深度分布，那比如图中高一点的地方可能概率就偏大一点，矮一点的颜色浅一点的地方可能概率就偏小一点

那体素的高效池化网络的高效体现在速度快，那怎么加速呢，其实是为每一个网格分配了一个 CUDA 线程，一个 CUDA 线程的作用是处理一个网格的特征，我们叫一个视锥空间的特征，BEV 空间下所有的视锥空间是一个并行化处理的，所有网格是一起做的，我们所有视锥空间是一起做的，那所以自然速度就会加快

那在这里一旦 BEV 空间构造好了，我们自然会进行下一步那就是基于 BEV 特征去做预测，有了 BEV Feature 我们自然可以做预测，那这就是 BEVDepth 完整的结构

3. 损失函数

那 OK，我们再理一下 BEVDepth 整体网络，其框图如下所示

输入的是 Multi-view 图像一个多视角的图像，通过图像编码器可以得到图像特征，通过 Depth Net 预测深度分布，然后通过深度校正 BEV 空间的特征生成可以得到 BEV Feature，核心内容其实是深度预测模块，与之前的深度分布估计不同 BEVDepth 引入的是有监督信息的深度估计，那这些监督信息哪来呢，点云投影出来的监督值，那既然是有监督信息的，损失函数也是有的，深度估计损失，还有一个是 3D 预测损失，那它们俩就是完整的 BEVDepth 的损失函数

4. 性能对比

OK，我们再看下性能，如下表所示：

nuScenes 测试集下 BEVDepth 整体性能还是可以的 mAP 是 0.52

我们是重点关注消融实验，那首先在表 1 中作者做了一个很有意思的实验，我们看下第一行 learned 它表示的其实就是我们 LSS 网络，它作为一个 Baseline 其 mAP 是 28.2，OK，那现在作者怎么做，把 LSS 网络学习到的离散深度分布结果替换成一些随机量，随机量分为两种有一种是 soft 的一种是 hard 的，我们翻译过来叫软随机和硬随机，软随机那就不是非 0 即 1 的结果，存在 0.5、0.6、0.8 等等，random hard 叫硬随机比如 one-hot 编码就是一个硬随机

那作者发现了一个什么特别有意思的事情呢，我们把 LSS 学习到的离散深度分布值替换成一些随机量之后，性能没有下降得很明显没有崩盘，它只是稍许下降，尤其是替换成 random soft 之后性能也仅仅从 28.2 下降了 3.7 个点到 24.5，这是不是挺神奇的，有一点超出我们常识认知。另外作者其实也用 GT 进行替换，这个性能提高非常明显，从 28.2 提高到了 47.0，有将近 20 个点的提升，那足以证明深度监督信息是很有效的

那在表 4 当中是对文中涉及的一些模块进行了一个验证，前面 DL 模块是深度监督模块，后面第二个 CA 模块是深度监督当中引入了相机参数，后面的 DR 模块是校正模块是 refinement，我们有了深度估计之后对深度值去进行一个校正，MF 是多帧的网络把时序信息引入进去之后性能有了进一步的提升

表 6 讨论了深度校正模块的一些详细的内容，把里面的一些卷积操作进行了对比，用了 1x1 的卷积，3x1 的卷积，3x3 的卷积，那性能最好的是 3x3 的卷积

另外由于引入了深度损失，有了深度监督有了深度预测结果所以引入了深度损失，那作者对深度损失函数也进行了讨论，如表 5 所示，采用了两种损失函数一个是 BCE，一个是 L1 以及合在一起的方式

我们再来看一个很有意思的东西，图像的训练尺寸和测试的尺寸对性能的鲁棒性是不是有影响，如上图所示，训练的时候采用的是 256x704 的尺寸，测试是在不同尺寸下去做的测试，那绿色的部分是 Base Detector，蓝色的是 BEVDepth 的方式也就是本文的方式

作者发现一个什么事情，我们训练尺寸比如 256x704 的训练尺寸如果放在同等尺寸下去进行测试的时候性能差不多，用 BEVDepth 是 30.4 用 base detector 是 28.2，大家性能差不多，如果说训练尺寸和测试尺寸差距很大，比如说我们训练的是 256x704 的尺寸推理的时候采用 192x640 的尺寸，那这个 Base Detector 性能下降得非常明显，从 28.2 直接下降到了 18.9，BEVDepth 性能下降得不是太明显

那为什么 Base Detector 鲁棒性这么差呢，它为什么对图像尺寸性能这么不好呢，其实也比较好理解，缺少了深度监督嘛，因为很多像素是没有学习到一个比较好的深度分布的，那么一旦测试环境发生变化性能波动就会非常大。同时也得益于比较好的深度分布预测，我们能看到 BEVDepth 的方式在不同尺寸下相比而言还是比较鲁棒的

另外作者还给出了上图的可视化结果，我们能看到像作者的方式投影的位置其实非常好的，绿色部分是 BEVDepth 的投影位置，旁边绿色加红色是传统方法的投影点，它只有很小一部分绿色的点是投影在正确的位置上，而很大一部分红色区域的点是投影在外面也就是错误位置上，它其实就是投影位置飘了

OK，我们 BEVDepth 的核心内容就到此为止，BEVDepth 主要思路其实就是通过深度监督信息的引入让深度估计得更准，那至于其他模块其实都是偏工程性质的模块

总结

BEVDepth 的作者围绕 Depth 深度估计展开，他认为现有的方法由于缺乏明确的深度监督很难做出准确的深度感知结果，此外深度估计子网络不能充分利用相机的内外参数导致无法有效推断像素深度，基于此 BEVDepth 作者提出了一个深度预测模块，与之前的深度分布估计方法不同的是 BEVDepth 引入的是有监督信息的深度估计，这些监督信息来自于点云的投影，这就是 BEVDepth 的核心内容了，通过点云投影到图像这个深度监督信息的引入让深度估计得更准

OK，以上就是 BEVDepth 的全部内容了，下节我们学习一篇想法独特的环视 BEV 感知算法 BEVDistill，敬请期待

下载链接

论文下载链接【提取码：6463】
数据集下载链接【提取码：data】

参考

[1] Li et al. Bevdepth: Acquisition of reliable depth for multi-view 3d object detection

车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
斗破苍穹｜第四章：休妻上分享生活3
欢迎大家收听长篇玄幻小说《斗破苍穹》。第四章休息。那么，炼丹最重要的三个条件，物质，火，灵魂，感知。材料自然是各种天才和宝物。毕竟药剂师不是神。没有顶级的材料，她们也是聪明的女人，没有米饭就不能做饭，所以好的材料很重要。火种。也就是炼药所需的火焰。用普通的火来炼制丹药是不可能的。而是必须使用由火属性斗气催化的斗气火焰。当然，这个世界充满了不同的火焰，一些强大的炼金术士也将取代他们的位置。用这些奇火
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
Coze开源实战指南：构建企业级AI应用的全链路技术解析（含Kubernetes+服务网格深度实践）
一、Coze技术架构深度解析1.1核心组件与五层异构架构Coze采用五层异构架构（感知层→执行层→决策层→监控层→进化层），实现亚毫秒级实时响应与动态弹性扩展。其核心模块包括：架构亮点支持横向扩展的微服务集群基于Kubernetes的自动扩缩容机制服务网格（Istio）实现流量治理核心组件对比表组件功能特性典型性能指标CozeStudio30+节点类型/多模式编排响应速度提升300%CozeLoo
AI Agent开发第60课-巧用QWEN3.0 0.6B：小身板扛大旗，AI界的轻骑兵 TGITCIC AI Agent开发大全 qwen3 qwen ali qwen 国产大模型小模型开源小模型 ai agent
第一章：小模型的生存法则——为什么0.6B参数就够了？1.1参数量的"黄金分割点"模型类型参数量推理延迟（ms）并发量（QPS）Qwen-0.6B6亿15-3010万+Qwen-1.5B15亿50-805万Qwen-7B70亿200+1万数据对比显示，当参数量超过6亿后，性能提升与成本增长呈现"抛物线"关系。就像智能手机从4G到5G的迭代，用户感知不到的速度提升，却要为硬件升级买单。Qwen-0.
难得人间一趟，感知世间温凉尚学读书
文:书侠麦克元人间烟火味，最抚凡人心。烟火的气息是什么？是乡愁，是母亲早起喊你起床的声音，也是在冬日里靠在灶台前烧火。这浓浓的烟火，是我们最久远的记忆。梁实秋说:“人在有闲的时候，才最像一个人，手脚相当闲，头脑才能相当地忙起来。”闲着的时候，也是最忙的时候，忙着回忆过去，忙着回忆那曾经的过去。不曾想一离开就是永别，时间淡忘了现在，却更加清晰了过去，那曾经的一缕缕思绪，如同脸上的皱纹一样越来越清晰，
物联网与数字孪生：深度协同驱动智能未来 —— 专业规划分析 boyedu 物联网域名物联网区块链
一、定义与核心技术架构1.1物联网（IoT）的技术本质与架构定义：通过信息传感设备将物理对象与互联网连接，实现智能化识别、定位、跟踪和管理的网络。四层架构：感知层：传感器、RFID等设备采集物理数据（如温度、压力）。网络层：通过Wi-Fi、5G等通信技术传输数据，确保实时性与稳定性。平台层：云计算/边缘计算平台处理数据（如AWSIoT、AzureIoT）。应用层：提供终端服务（如智能家居、工业监控
边缘计算与云计算协同：未来架构的黄金组合大力出奇迹985 边缘计算云计算架构
边缘计算与云计算的协同融合，正成为支撑未来智能社会的核心架构。本文从技术互补性、应用场景拓展、架构安全保障、性能优化路径和未来发展趋势五个维度，系统剖析二者协同的底层逻辑与实践价值。通过分析边缘节点的实时处理能力与云端的全局算力优势如何形成合力，探讨该架构在工业互联网、自动驾驶、智慧城市等领域的创新应用，并针对安全防护、资源调度等关键问题提出解决方案，最终总结其对数字经济发展的战略意义。一、技术互
2021-02-22 不存在的真实
去想象世间本就没有的事物，就像人类是如何想象出圆形的呢？看着月亮反复的问到为什么人类可以想象出圆？世界上没有完美的圆人类是怎么想象出来的呢？可月亮算吗？太阳呢？人类总是被曲线所吸引。为什么我们的世界这么奇怪：都是那么多的线条？数学连接了心灵感知的抽象世界和完全没有生命的真实的物质世界
【三维目标检测】Complex-Yolov4详解（二）：模型结构 Coding的叶子 Python三维点云实战宝典 Complex-Yolo Complex-Yolov4 三维目标检测目标检测 python
本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。Complex-Yolo网络模型的核心思想是用鸟瞰图BEV替换Yolo网络输入的RGB图像。因此，在完成BEV处理之后，模型的训练和推理过程基本和Yolo完全一致。Yolov
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
提示工程架构师总结：Agentic AI智能健康项目需求分析的8个关键步骤 AGI大模型与大数据研究院人工智能需求分析 ai
AgenticAI智能健康项目需求分析：从0到1构建智能健康助手的8个关键步骤关键词AgenticAI（智能体AI）、智能健康、需求分析、用户旅程、场景建模、伦理合规、数据策略、系统交互摘要当AI从“被动响应”进化到“主动服务”，AgenticAI（智能体AI）正在重新定义智能健康的边界——它不再是“你问我答的健康助手”，而是“能主动感知、推理、行动的健康管家”：比如监测到糖尿病患者餐后血糖超标，
研讨会预告：基于 NVIDIA Omniverse 构建 Physical AI 应用，解锁 Physical AI 的落地路径 CSDN资讯人工智能
在生成式AI持续革新虚拟内容生产的同时，一种面向现实世界的AI正悄然兴起——物理AI(PhysicalAI)。它赋能机器人、自动驾驶等自主系统在三维空间中完成感知、理解与互动，让AI走出屏幕，触碰现实。借助NVIDIAOmniverse、Cosmos、IsaacSim等平台，开发者正在加速构建真实可用的物理智能体。加入本期精讲堂，探索如何利用端到端工具链快速推进AI与物理世界的深度融合。基于NVI
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革 AIGC应用创新大全人工智能 ai
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革副标题：从自动驾驶决策到城市交通大脑——大语言模型提示工程实战指南摘要/引言问题陈述：智能交通系统正面临前所未有的复杂性挑战——自动驾驶车辆需要实时处理多源异构数据，城市交通管理需平衡效率与安全，出行服务平台要满足个性化需求。传统AI开发模式依赖大量标注数据和专业领域知识，导致系统迭代缓慢、场景适应性差。当大语言模型(LLM)成为通用人工
科技尖兵：软件开发“软工八将”传奇程序猿全栈の董（董翔）科技软件 it 互联网程序员
科技尖兵：软件开发“软工八将”传奇在科技浪潮奔涌的时代，软件开发团队如同精锐部队，每个角色都是不可或缺的战斗单元。我们的“软工八将”，以智慧为刃，以代码为甲，在数字世界开辟新天地。与传统江湖行当截然不同，这支队伍用知识创造价值，以技术推动进步，是新时代的科研先锋。他们是：风提需概，详码测维风将：需求洞察者风无形却能感知方向。风将通过用户访谈、市场调研，精准捕捉需求风向，为项目奠定基石。他们是团队的
以AI人工智能为核心，发展空间智能 AI智能探索者 AI Agent 智能体开发实战人工智能 ai
以AI人工智能为核心，发展空间智能关键词：人工智能、空间智能、智能系统、机器学习、计算机视觉、物联网、自动化技术摘要：本文围绕"以AI人工智能为核心发展空间智能"这一主题，系统解析空间智能的技术架构与实现路径。通过揭示AI与空间智能的核心关联，深入探讨机器学习、计算机视觉、数字孪生等关键技术如何赋能空间数据的感知、处理与决策。结合智能建筑、智慧城市等实际场景，展示从算法原理到工程落地的完整技术链条
动态客流分析新突破！陌讯多模态融合算法在智慧零售的落地优化
原创声明：本文技术方案解析基于陌讯视觉算法技术白皮书V3.2版本一、行业痛点：零售场景的精准感知困境据麦肯锡《2024零售数字化报告》显示，传统客流统计方案在复杂场景下存在显著瓶颈：误检率超35%：镜面反射、密集遮挡导致的顾客计数偏差（如图1）动态追踪失效：购物车/儿童跟随场景ID切换频率高达2.3次/秒[7]graphLRA[强反光地板]-->B[特征点丢失]C[亲子群体粘连]-->D[ID分配
强干扰下误报率↓85%！陌讯动态感知算法在工业消防的实战解析 2501_92473287 算法目标检测计算机视觉深度学习人工智能
摘要：针对工业场景明火烟雾检测的边缘计算优化，实测显示陌讯动态感知算法在强干扰环境下较基线模型误报率↓85%，[email protected]达87.6%。一、行业痛点：工业消防的监测困境据《工业安全监测白皮书2025》统计，石化厂区因蒸汽干扰导致的火灾误报率高达38.7%[7]。核心挑战包括：光学干扰：高温蒸汽与金属反光产生伪烟雾特征形态多变：明火在通风环境下呈现非稳态扩散实时性要求：响应延迟>200ms将导致连
MEMS定向短节的测量精度依靠哪些技术？ ericco123 MEMS 陀螺仪惯性技术制造科技
在石油天然气测井或矿井勘探等领域，随钻测量等场景对精度的核心需求，在于振动、冲击等恶劣工况下保持稳定可靠。传统测量工具在这类环境中精度易受干扰而下降。以ER-Gyro-15和ER-Gyro-19为代表的MEMS定向短节恰好破解这一难题：融合了三轴MEMS陀螺与三轴MEMS加速度计的实时数据，采用捷联式设计，成为振动场景下保障高精度测量的关键方案。核心传感器三轴MEMS陀螺仪可实时感知地球自转角速度
AR眼镜重塑外科手术导航：精准“透视”新突破 Teamhelper_AR ar
在现代医学领域，增强现实（ARwww.teamhelper.cn）技术正以前所未有的方式改变外科手术导航的面貌。通过为医生提供实时的三维可视化、精准的空间定位和智能交互功能，AR眼镜正在成为手术室中的重要工具。本文将系统介绍AR眼镜在手术导航中的核心应用、显著优势及未来发展趋势。一、核心技术突破：亚毫米级定位与智能交互AR眼镜通过整合高分辨率透视显示屏、深度感知摄像头和惯性测量单元，实现了亚毫米级
从 12% 到全覆盖：光纤光栅传感器重构体育馆三维应变场武汉瑞利光测科技重构光纤 FBG 光纤光栅传感
行业痛点与技术突破图1大型体育馆网壳结构北京奥林匹克场馆运维报告显示，传统结构监测面临三大挑战：监测盲区：传统振弦式传感器仅覆盖12%关键节点，无法捕捉90米跨度网壳结构的局部失稳（图1）；环境干扰：馆内5G基站导致50%电阻应变片发生信号漂移；响应迟滞：人工检测周期长达3个月/次，难以及时发现焊缝微裂纹扩展。本方案创新构建光纤神经感知网络图2大跨度网壳结构应力分布1.智能传感阵列：采用碳纤维复合
单兵图传+车载系统+指挥中心：构建公共安全的“移动神经网“
一、技术底座：三端协同的硬件革新1.1单兵终端：移动的"感知神经元"基于5G便携式多卡高清视频融合终端，现代单兵装备实现三大突破：编码革命：H.265处理器实现1M带宽传输1080P视频，较传统设备压缩效率提升40%网络韧性：5G+双4G三卡捆绑技术，支持SA/NSA双模组网，在-100dBm弱信号环境下仍可保持720P传输实战优化：8000mAh电池续航长达10小时，508g轻量化设计，集成GP
商汤发布具身智能平台，让机器人像人一样和现实世界交互
7月27日，在“大爱无疆·模塑未来”WAIC2025大模型论坛上，商汤科技重磅发布「悟能」具身智能平台。「悟能」具身智能平台以商汤具身世界模型为核心引擎，依托商汤大装置提供端侧和云侧算力支持，能够为机器人、智能设备提供强大的感知、视觉导航及多模态交互能力，推动智能终端向更高层次的自主化与智能化演进。「悟能」具身智能平台可赋能机器人等各种终端硬件，实现对世界万物的感知理解能力，并支持嵌入到端侧芯片，
YOLO13：基于超图增强自适应视觉感知的实时目标检测 alpszero YOLO计算机视觉应用目标检测人工智能计算机视觉 YOLO13
YOLO13：基于超图增强自适应视觉感知的实时目标检测论文：YOLOv13:Real-TimeObjectDetectionwithHypergraph-EnhancedAdaptiveVisualPerception代码：https://github.com/iMoonLab/yolov13YOLOv13主要技术YOLOv13新一代实时检测器，集卓越性能与效率于一身。YOLOv13系列包含四种变
智慧水库边缘计算技术路线与框架设计小赖同学啊 test Technology Precious 边缘计算人工智能
智慧水库边缘计算技术路线与框架设计一、边缘计算技术路线1.整体技术路线云边协同层边缘管理层边缘计算层边缘感知层设备层配置下发模型更新数据同步容器编排资源调度安全管理实时数据处理本地AI推理规则引擎协议适配数据采集设备管理水位计雨量计摄像头闸门传感器设备层边缘感知层边缘计算层边缘管理层云边协同层中心云平台2.关键技术演进路线阶段技术重点目标1.0基础建设期容器化部署、基础数据采集实现设备接入和基础数
欣诚幼儿园小六班：暖冬相伴，爱在欣诚欣诚幼儿园郑雅文
小小的你啊～要慢慢长大，学会自己慢慢的坚强；要慢慢长大，长成一棵参天的树；要慢慢长大，朝着远方奋力远航。集体活动：周一：《红灯绿灯眨眼睛》1.知道过马路要遵守“红灯停、绿灯行”的交通规则。2.能根据红绿灯的信号做动作，体验模仿游戏的快乐。周二：《停车场》1.学习用比较的方法区别大小明显的三个物体。2.尝试用排序卡进行大小排序游戏。周三：《小老鼠上灯台》1.感知儿歌韵律。2.能用动作表现滚动的状态，
IMU如何在无GPS的地下环境中实现精准感知？
在无GPS的地下环境（如定向钻探/钻井/测井）中，通常使用惯性测量单元进行钻探中的精准感知。IMU是现代MWD/LWD系统的核心传感器，核心优势在于其自主性——它不依赖外部信号（如GPS、磁场），完全通过测量自身的加速度和角速度实现系统推算方位角，井斜角，工具面角，姿态角。是实现无GPS环境下钻探的唯一可行方案。作为专为钻探场景定制的MEMSIMU，ER-MIMU-091的核心竞争力源于其对极端环
在无人机中IMU的主要功能是什么？ Yuroo zhou IMU 无人机大数据人工智能嵌入式硬件单片机机器人云计算
IMU作为无人机导航与控制系统的核心部件，其性能直接影响飞行器的姿态稳定性、定位精度与环境适应性。IMU原始数据经滤波融合，解算无人机的实时姿态角（俯仰、横滚、偏航），当无人机进入GNSS信号弱或丢失区域（如城市峡谷、室内环境），IMU可独立维持短时间导航解算，避免无人机失控。ER-MIMU-043IMU凭借其卓越的技术特性，成为无人机领域实现稳定运动控制的关键组件。**实时运动感知**三轴角速度
IMU的精度对无人机姿态控制意味着什么？ Yuroo zhou IMU 无人机嵌入式实时数据库嵌入式硬件算法单片机
IMU的精度对无人机姿态控制至关重要，是决定无人机飞行稳定安全、响应性和任务执行能力的关键因素之一，IMU（包含三轴加速度计和三轴陀螺仪）是飞控系统实时估算无人机姿态（俯仰、横滚、偏航角）的核心传感器，直接决定了飞控系统“感知”自身姿态变化的准确性和及时性。ER-MIMU-043的技术优势直击无人机对“小体积、高精度、低功耗”的需求，可轻松集成于各类无人机中，大幅降低对无人机负载能力的占用，间接提
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比