我叫两万块

【论文解读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

PV-RCNN

摘要
引言
方法
- 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
- Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
- Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
实验
结论

摘要

我们提出了一种新的高性能3D对象检测框架，称为PointVoxel RCNN（PV-RCNN），用于从点云中精确检测3D对象。我们提出的方法深度集成了三维体素卷积神经网络（CNN）和基于PointNet的集合抽象，以学习更具判别力的点云特征。它利用了3D体素CNN的高效学习和高质量建议以及基于PointNet的网络的灵活感受野。具体而言，所提出的框架通过新颖的体素集抽象模块将具有3D体素CNN的3D场景总结为一小组关键点，以节省后续计算并对代表性场景特征进行编码。给定体素CNN生成的高质量3D提案，提出了RoIgrid池，以通过关键点集抽象将提案特定特征从关键点抽象到RoI网格点。与传统的池化操作相比，RoI网格特征点编码了更丰富的上下文信息，用于准确估计对象的置信度和位置。在KITTI数据集和Waymo Open数据集上进行的大量实验表明，我们提出的PV-RCNN以显著的优势超过了最先进的3D检测方法。

引言

我们提出了一种新的3D对象检测框架PVRCNN（如图1所示），它通过结合基于点和基于体素的特征学习方法的优点来提高3D检测性能。

PV-RCNN的原理在于，基于体素的操作有效地编码了多尺度特征表示，并可以生成高质量的3D建议，而基于PointNet的集合抽象操作通过灵活的感受野保留了准确的位置信息。我们认为，这两种类型的特征学习框架的集成可以帮助学习更具鉴别力的特征，以实现精确的细粒度盒子细化。
主要挑战是如何将两种类型的特征学习方案，特别是具有稀疏卷积的3D体素CNN和基于PointNet的集合抽象有效地结合到一个统一的框架中。一个直观的解决方案是在每个3D提案中对几个网格点进行均匀采样，并采用集合抽象来聚合这些网格点周围的3D体素特征，以进行提案细化。然而，这种策略是高度内存密集型的，因为体素的数量和网格点的数量都可能非常大，以至于难以实现令人满意的性能。
因此，为了更好地集成这两种类型的点云特征学习网络，我们提出了一种两步策略，第一步是体素到关键点场景编码步骤，第二步是关键点到网格RoI特征提取步骤。
主要贡献：

（1）我们提出了PV-RCNN框架，该框架有效地利用了基于体素和基于点的3D点云特征学习方法的优势，从而在可管理的内存消耗的情况下提高了3D对象检测的性能。
（2）我们提出了体素到关键点场景编码方案，该方案通过体素集抽象层将整个场景的多尺度体素特征编码为一个小的关键点集。这些关键点特征不仅保持了准确的位置，而且对丰富的场景上下文进行了编码，显著提高了3D检测性能。
（3）我们为每个提议中的网格点提出了一个多尺度RoI特征抽象层，该层聚合了来自场景的更丰富的上下文信息，用于精确的框细化和置信度预测。
（4）我们提出的方法PV-RCNN以显著的优势优于以前的所有方法，在竞争激烈的KITTI 3D检测基准中排名第一，在大规模Waymo Open数据集上也以较大的优势超过了以前的方法。

方法

图2:我们提出的PV-RCNN的总体架构。首先对原始点云进行体素化，以馈送到基于3D稀疏卷积的编码器中，从而学习多尺度语义特征并生成3D对象建议。然后，通过新颖的体素集抽象模块，将多个神经层上学习到的体素特征量总结为一小组关键点。最后，将关键点特征聚合到RoI网格点，以学习用于细粒度提案细化和置信度预测的提案特定特征。

3D Voxel CNN for Efficient Feature Encoding and Proposal Generation

具有3D稀疏卷积的体素CNN是最先进的3D检测器的热门选择，用于有效地将点云转换为稀疏的3D特征体，由于其效率高、精度高，我们采用它作为特征编码和3D提议生成框架的主干。
3D voxel CNN
首先将输入点P划分为空间分辨率为L × W × H的小体素，其中非空体素的特征直接计算为内部所有点的逐点特征(即三维坐标、反射率强度)的平均值。该网络利用一系列3×3×3三维稀疏卷积，逐步将点云转换为下采样大小分别为1x、2x、4x、8x的特征体。这种稀疏特征体可以看作是一组体素特征向量。
3D proposal generation
通过将编码的8×downsampled 3D特征体转换为2D鸟瞰特征图，可以按照基于锚点的方法生成高质量的3D提案。具体来说，我们沿着Z轴叠加3D特征体，得到了L/8 × W/8鸟瞰特征图。每个类有2个× L/8 × W/8个3D锚盒，锚盒采用该类3D对象的平均尺寸，鸟瞰特征图的每个像素分别评估0◦、90◦两个方向的锚。

Discussions.（为下一模块做铺垫）
最先进的检测器大多采用两阶段框架。它们需要从生成的3D特征体积或2D地图中汇集RoI特定特征，以进行进一步的提案细化。然而，来自3D体素CNN的这些3D特征体积在以下方面具有主要限制。（i）这些特征体积通常具有低空间分辨率，因为它们被下采样高达8倍，这阻碍了对象在输入场景中的精确定位。（ii）即使可以上采样以获得更大空间大小的特征体积/图，它们通常仍然相当稀疏。因此，传统的池化方法将获得大部分为零的特征，并浪费大量的计算和内存用于第二阶段的细化。
另一方面，在PointNet的变体中提出的集合抽象操作已经显示出对来自任意大小的邻域的特征点进行编码的强大能力。因此，我们建议将3D体素CNN与一系列集合抽象操作集成，以进行准确和稳健的第2阶段建议细化。
使用集合抽象操作来池化场景特征体素的一个简单解决方案是将多尺度特征体直接聚合到RoI网格。然而，由于大量的稀疏体素，这种直观的策略只是占用了大量的GPU内存来计算集合抽象中的成对距离。
为了解决这个问题，我们提出了一种分两步的方法，首先将整个场景的不同神经层的体素编码为少量关键点，然后将关键点特征聚合到RoI网格中进行框建议细化。

Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction

我们的框架首先将表示整个场景的多尺度特征体素聚合为少量关键点，这些关键点充当3D体素CNN特征编码器和提案细化网络之间的桥梁。

Keypoints Sampling
具体而言，我们采用最远点采样（FPS）算法从点云P中采样少量n个关键点K={p1，···，pn}，其中KITTI数据集n=2048，Waymo数据集n=4096。这种策略鼓励关键点均匀分布在非空体素周围，并且可以代表整个场景。
【FPS（Furthest Point Sampling）】是一种用于点云采样的算法。FPS 旨在从点云中选择一组代表性的点，以便在减少数据量的同时保留关键信息。FPS 的基本思想是从点云中选择一个起始点，然后在剩余的点中找到距离已选点最远的点作为下一个选定点，如此循环直到达到所需的采样数量。这确保了所选点的分布较为均匀，并且覆盖了原始点云的关键特征。
Voxel Set Abstraction Module
关键点周围的点现在是由多层三维体素CNN编码的具有多尺度语义特征的规则体素，而不是像PointNet++那样从PointNet学习特征的相邻原始点。
其中，F(lk) = {F(lk) 1，···，F(lk)Nk}为三维体素CNN的第k层体素特征向量集合，V(lk) = {V(lk) 1，···，V(lk)Nk}为它们的三维坐标，由第k层体素指数和实际体素大小计算，其中Nk为第k层非空体素的个数。

对于每个关键点pi，我们首先在半径rk内的第k层识别其相邻的非空体素，以检索体素方向的特征向量集为

v（lk）j−pi 局部相对坐标（表示语义体素特征f (lk)j的相对位置。）

通过PointNet对pi的相邻体素集S（lk）i内的体素特征进行变换，以生成关键点pi的特征：

M（·）表示从相邻集S（lk）i中随机采样最多Tk个体素以节省计算，
G（·）代表多层感知器网络以对体素特征和相对位置进行编码
尽管相邻体素的数量在不同的关键点之间变化，但沿通道最大池化操作max（·）可以将不同数量的相邻体素特征向量映射到关键点pi的特征向量f（pvk）i。

上述策略是在3D体素CNN的不同级别上执行的，并且可以将来自不同级别的聚合特征连接起来，以生成关键点pi的多尺度语义特征

其中生成的特征f（pv）i结合了来自体素特征f（lk）j的基于3D体素CNN的特征学习和来自体素集抽象的基于PointNet的特征。此外，pi的三维坐标还保留了准确的位置信息。
Extended VSA Module
（VSA）Voxel Set Abstraction
我们通过进一步丰富原始点云P和8倍下采样鸟瞰图的关键点特征来扩展VSA模块。其中原始点云部分弥补了点云体素化的量化损失，而2D鸟瞰图沿Z轴具有更大的接受域。原始点云特征f (raw)i也按照Eq.(2)进行聚合。关键点pi的鸟瞰特征f (bev)i则通过对鸟瞰特征映射的双线性插值得到。因此，通过连接pi的所有相关特性，进一步丰富了它的关键点特性

Predicted Keypoint Weighting.
在整个场景由少量关键点编码后，它们将被后续阶段进一步用于进行提案细化。直观地说，属于前景对象的关键点应该对提案的精确细化有更大的贡献，而来自背景区域的关键点的贡献应该更小。
因此，我们提出了一个预测关键点加权（PKW）模块（见图3），通过点云分割的额外监督来重新加权关键点特征。分割标签可以由3D检测框注释直接生成，即通过检查每个关键点是在真实3D框的内部还是外部。每个关键点的特征的预测特征加权可以公式化为

A() 表示一个具有Sigmoid函数的三层MLP网络，用于预测[0，1]之间的前景置信度。

通过focal loss来训练

Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement

RoI-grid Pooling via Set Abstraction.
对于每个3D RoI，如图4所示，我们提出了RoI网格池模块，将关键点特征聚合到具有多个接受域的RoI网格点。我们在每个3D方案中统一采样6 × 6 × 6个网格点，记为G = {g1，···，g216}。采用集合抽象操作，从关键点特征中聚合网格点的特征

具体来说，我们首先识别半径为r的网格点gi的相邻关键点
聚合相邻的关键点特征集

在从其周围的关键点获得每个网格的聚合特征后，可以通过具有256个特征维度的两层MLP对相同RoI的所有RoI网格特征进行矢量化和变换，以表示整个提议。

3D Proposal Refinement and Confidence Prediction.

对于第k个3D RoI，其置信度训练目标yk归一化为介于[0,1]之间的
（IOU大于等于0.75时，y刚好是1，所以认为IOU达到0.75就已经很好了）

confidence利用二值交叉熵损失来进行训练。
bos regression利用smooth-L1损失函数进行训练

实验

KITTI数据集

结论

我们提出了PV-RCNN框架，这是一种从点云精确检测三维目标的新方法。该方法通过提出的体素集抽象层将多尺度三维体素CNN特征和基于pointnet的特征集成到一个小的关键点集合中，然后将学习到的关键点的判别特征聚合到具有多个接受域的roi网格点中，以捕获更丰富的上下文信息，用于细粒度提案的细化。在KITTI数据集和Waymo Open数据集上的实验结果表明，我们提出的体素到关键点场景编码和关键点到网格的RoI特征抽象策略与之前最先进的方法相比，显著提高了3D目标检测性能。

基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
yolo 目标检测600类目标大霸王龙行业+领域+业务场景=定制 YOLO 目标检测人工智能
1.模型架构调整类别适配：将YOLO输出层的类别节点数调整为600（如YOLOv5的detect.yaml中修改nc=600），并更新类别名称映射表（classes.txt）。骨干网络优化：若使用YOLOv5/v8，可升级骨干网络（如C3模块深度）或替换为更高性能的主干（如EfficientNet、ResNet-101），以增强复杂场景的特征提取能力。多尺度检测头：保留或扩展YOLO的多尺度输出（
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
yolo检测常见指标 bigdata从入门到放弃深度学习yolo YOLO 目标跟踪人工智能深度学习
YOLO（YouOnlyLookOnce）作为经典的单阶段目标检测算法，其性能评估依赖于目标检测领域的通用指标。这些指标既衡量检测精度（是否准确识别物体类别、准确定位），也衡量检测速度（是否实时）。下面用通俗的语言详细解释核心指标：一、基础：判断“预测框是否有效”——IoU（交并比）目标检测的核心是“预测框”（模型输出的矩形框）是否准确覆盖“真实框”（人工标注的物体位置）。IoU是衡量两者重叠程度
边缘计算与云计算协同：未来架构的黄金组合大力出奇迹985 边缘计算云计算架构
边缘计算与云计算的协同融合，正成为支撑未来智能社会的核心架构。本文从技术互补性、应用场景拓展、架构安全保障、性能优化路径和未来发展趋势五个维度，系统剖析二者协同的底层逻辑与实践价值。通过分析边缘节点的实时处理能力与云端的全局算力优势如何形成合力，探讨该架构在工业互联网、自动驾驶、智慧城市等领域的创新应用，并针对安全防护、资源调度等关键问题提出解决方案，最终总结其对数字经济发展的战略意义。一、技术互
【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 人工智能目标检测计算机视觉
YOLOv1（YouOnlyLookOnce）：实时目标检测的革命性突破✨motivation在目标检测领域，传统方法如R-CNN系列存在计算冗余、推理速度慢的问题。2016年提出的YOLO（YouOnlyLookOnce）首次实现端到端单阶段检测，将检测速度提升至45FPS（FasterR-CNN仅7FPS），彻底改变了实时目标检测的格局。其核心思想是将检测视为回归问题，实现"看一眼即知全貌"的
【三维目标检测】Complex-Yolov4详解（二）：模型结构 Coding的叶子 Python三维点云实战宝典 Complex-Yolo Complex-Yolov4 三维目标检测目标检测 python
本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。Complex-Yolo网络模型的核心思想是用鸟瞰图BEV替换Yolo网络输入的RGB图像。因此，在完成BEV处理之后，模型的训练和推理过程基本和Yolo完全一致。Yolov
YOLOv4详细介绍不是二哈的柯基 YOLO系列深度学习 pdf YOLO 计算机视觉
YOLOv4是一种目标检测算法，是YOLO(YouOnlyLookOnce)系列的最新版本，由AlexeyBochkovskiy、Chien-YaoWang和Hong-YuanMarkLiao共同提出。相比于之前的版本，YOLOv4在速度和精度方面都有了显著的提升。下面是YOLOv4的一些详细介绍：模型结构YOLOv4采用了一种新的模型结构，称为CSPDarknet。这个结构类似于ResNet的残
YOLOv4 介绍及其模型优化方法
1、YOLOv4介绍2020年4月，YOLOv4在悄无声息中重磅发布，在目标检测领域引起广泛的讨论。在YOLO系列的原作者JosephRedmon宣布退出CV领域后，表明官方不再更新YOLOv3。但在过去的两年中，AlexeyAB继承了YOLO系列的思想和理念，在YOLOv3的基础上不断进行改进和开发，于今年4月发布YOLOv4，并得到了原作者JosephRedmon的承认。YOLOv4可以使用传
【YOLO系列】YOLOv4详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 目标跟踪人工智能目标检测计算机视觉论文阅读
YOLOv4详解：模型结构、损失函数、训练方法及代码实现motivationYOLO系列作者JosephRedmon与AlexeyBochkovskiy致力于解决目标检测领域的核心矛盾：精度与速度的平衡。YOLOv4的诞生源于两大需求：工业落地：在移动端/边缘设备实现实时检测（>30FPS）学术突破：无需昂贵算力（如1080Ti即可训练），在MSCOCO数据集达到SOTAmethods1.数据加载
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
OpenCV基础02_图像预处理白槿_cha 计算机视觉基础 opencv 人工智能计算机视觉笔记
图像预处理在计算机视觉和图像处理领域，图像预处理是一个重要的步骤，它能够提高后续处理（如特征提取、目标检测等）的准确性和效率。OpenCV提供了许多图像预处理的函数和方法，一些常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学一、图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂
研讨会预告：基于 NVIDIA Omniverse 构建 Physical AI 应用，解锁 Physical AI 的落地路径 CSDN资讯人工智能
在生成式AI持续革新虚拟内容生产的同时，一种面向现实世界的AI正悄然兴起——物理AI(PhysicalAI)。它赋能机器人、自动驾驶等自主系统在三维空间中完成感知、理解与互动，让AI走出屏幕，触碰现实。借助NVIDIAOmniverse、Cosmos、IsaacSim等平台，开发者正在加速构建真实可用的物理智能体。加入本期精讲堂，探索如何利用端到端工具链快速推进AI与物理世界的深度融合。基于NVI
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革 AIGC应用创新大全人工智能 ai
2024智能交通趋势：提示工程架构师用AI提示词引领技术变革副标题：从自动驾驶决策到城市交通大脑——大语言模型提示工程实战指南摘要/引言问题陈述：智能交通系统正面临前所未有的复杂性挑战——自动驾驶车辆需要实时处理多源异构数据，城市交通管理需平衡效率与安全，出行服务平台要满足个性化需求。传统AI开发模式依赖大量标注数据和专业领域知识，导致系统迭代缓慢、场景适应性差。当大语言模型(LLM)成为通用人工
破解电梯场景难题：陌讯识别算法 mAP 达 98.7% 2501_92474790 算法计算机视觉目标检测智慧城市目标跟踪
开篇痛点：电梯间电动车识别的行业困局传统视觉算法在电梯间电动车检测场景中始终面临三重挑战：复杂光线环境下（如强光直射、夜间低照度）目标特征提取不稳定，电动车与婴儿车、行李箱等相似物体的误判率高达35%；电梯轿厢狭小空间导致目标畸变严重，小目标检测漏检率超过20%；普通模型在边缘设备部署时难以兼顾精度与速度，FPS普遍低于15帧[实测数据显示]。这些问题直接导致物业安防系统告警泛滥，真正的安全隐患却
夜间监控模糊不清？陌讯低光目标检测方案解读 2501_92474779 目标跟踪人工智能计算机视觉算法目标检测
开篇痛点：安防监控的检测困局在智慧城市建设浪潮下，安防监控面临核心矛盾：复杂场景中传统算法的泛化性短板日益凸显。某市级公安部门数据显示，夜间监控的误报率高达34%，雨雾天气下漏检率超40%。更严峻的是，密集人流场景中YOLOv5的ID丢失率达28%，实时预警几乎瘫痪——这恰是陌讯视觉算法v3.2的破局切入点。技术解析：三阶时空融合架构传统单帧检测在遮挡场景易失效，陌讯的创新在于时空联合建模：#陌讯
实时检测延迟超200ms？陌讯新框架FPS提速50%揭晓 2501_92474779 目标跟踪人工智能计算机视觉机器学习算法视觉检测
开篇痛点在现代安防监控场景中，实时目标检测（Real-timeObjectDetection）至关重要，但传统算法如FasterR-CNN或YOLOv5往往面临严峻挑战。实测数据显示：复杂环境下（如夜间低光照、人群密集区），漏检率（MissRate）高达15-20%，导致安全隐患；同时，检测延迟（Latency）常超过200ms，影响应急响应。例如，某城市交通监控系统报告，在雨雾天气中的车辆误报率
智慧零售 AI 卡顿？陌讯轻量化方案 FPS 升 40% 2501_92722744 零售人工智能目标跟踪计算机视觉目标检测算法
一、开篇痛点：智慧零售视觉算法的三大行业困境在智慧零售场景中，传统视觉算法正面临着难以突破的技术瓶颈。自助结算台的商品误识别率常高达12%-18%，导致消费者频繁触发人工核验；复杂货架场景下，商品重叠、光照变化和包装相似性问题，使得目标检测漏检率超过20%；而边缘设备的算力限制，又让实时推理帧率（FPS）普遍低于25，无法满足流畅交互需求[1]。这些问题直接造成商超运营成本增加30%以上，严重制约
漏检率骤升20%的安防困局：陌讯动态剪枝技术如何破局 2501_92473199 人工智能机器学习算法目标检测计算机视觉视觉检测
1.开篇痛点：安防监控的夜间困局传统目标检测算法在复杂安防场景中面临三重挑战：光照敏感：低光环境下行人检测mAP暴跌至65%以下，夜间误报率高达40%目标遮挡：密集场景（如校园周界）漏检率超25%，某园区因货柜遮挡漏检损失超万元/次算力瓶颈：边缘设备（如JetsonXavier）运行YOLOv5仅12FPS，响应延迟>200ms某安防厂商反馈：40%误报率迫使每2小时人工复核，运维成本激增37%2
[毕业设计]一些基于yolov5项目高分毕业项目源码下载地址汇总海神之光. 毕设课程设计 YOLO
项目名称下载地址车辆检测计数+车牌定位+车牌识别的yolov4模板检测与yolov5车牌检测与LPRNet车牌检测源码+模型+详细说明.zip点我下载基于改进后的YOLOv5目标检测模型实现人群密度检测系统源码+模型+详细说明.zip点我下载基于YOLOv5实现微藻智能化在线检测系统源码+图片+说明文档.zip点我下载YOLOv5deepsort算法船舶等交通工具监测计数UI界面源码.zip点我下
基于YOLOv5+pyQT6的目标检测系统通用项目模板
本项目开发基于YOLOv5+pyQT6的目标检测项目，用来集成YOLO的目标检测系统，作为该类系统的开发模板，旨在通过替换模型文件即可进行照片、视频、摄像视频流的检测，设置日志系统，记录系统的每一步操作，并集成其他功能作为该模板的辅助功能。具体效果如下：yolo目标检测系统模板1.概述智能目标检测系统V2.1是一款基于PyQt6和YOLOv5模型开发的桌面应用程序。它提供了一个现代化、直观且功能丰
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具伏容一Julia
标签助手：基于LabelImg和YOLOv5的图像半自动标注工具项目基础介绍标签助手（labelGo-Yolov5AutoLabelImg）是一个图形化的半自动图像注解工具，它结合了广受欢迎的图像标注工具LabelImg的力量与先进的目标检测框架YOLOv5。这个开源项目旨在简化数据集的标注过程，利用现有YOLOv5PyTorch模型实现快速的半自动化标注，极大地提高了标注效率。项目主要采用Pyt
YOLO13：基于超图增强自适应视觉感知的实时目标检测 alpszero YOLO计算机视觉应用目标检测人工智能计算机视觉 YOLO13
YOLO13：基于超图增强自适应视觉感知的实时目标检测论文：YOLOv13:Real-TimeObjectDetectionwithHypergraph-EnhancedAdaptiveVisualPerception代码：https://github.com/iMoonLab/yolov13YOLOv13主要技术YOLOv13新一代实时检测器，集卓越性能与效率于一身。YOLOv13系列包含四种变
端到端-未来还是现实 Monkey PilotX 自动驾驶人工智能自动驾驶计算机视觉
自动驾驶的“终极梦想”是什么？“自动驾驶不是拼积木，而是教会一台机器像人一样开车。”过去几年，自动驾驶技术在公众视野中经历了从“热血科幻”到“冷静现实”的转变。你可能听过各种术语：L2、L3、NOA、城市领航、BEV感知……但最近，一个词越来越频繁地出现在技术圈和发布会上——端到端（End-to-End）自动驾驶。它听起来像是某种“黑科技”，但又让人摸不着头脑。它到底是什么？和传统的自动驾驶系统有
RK3568笔记九十三：基于RKNN Lite的YOLOv5目标检测殷忆枫 RK3568学习笔记笔记 YOLO
若该文为原创文章，转载请注明原文出处。一、介绍Yolov5是一种目标检测算法，属于单阶段目标检测方法，是在COCO数据集上预训练的物体检测架构和模型系列，它代表了Ultralytics对未来视觉AI方法的开源研究，其中包含了经过数千小时的研究和开发而形成的经验教训和最佳实践。最新的YOLOv5v7.0有YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x等，除了目标检测，
opencv-day2-图像预处理1 谢眠 OpenCV opencv 计算机视觉
图像预处理在计算机视觉和图像处理领域，图像预处理能够提高后续处理（如特征提取、目标检测等）的准确性和效率。常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂直翻转或同时水平和垂直翻转。这个函数接受两个参数：要翻转的图像和一个指定翻
【2025目标检测】最新论文 weixin_37763484 计算机视觉人工智能计算机视觉目标检测
2025目标检测最新进展第一章开放世界范式：统一已知与未知对象的检测在推动人工智能系统走向真实、动态环境的过程中，使其具备检测超出预定义训练类别范围之外物体的能力至关重要。2025年的研究显著地体现了这一“开放世界”范式的成熟，其标志是从解决孤立问题（如零样本、少样本或开集检测）转向构建能够处理不同程度“开放性”的统一框架。这一转变的核心在于，研究界正在从证明特定开放世界任务的可行性，转向开发更具
2025中国自动智能驾驶企业排行：最好的自动驾驶是哪家？潮湿的心情自动驾驶人工智能机器学习
在智能驾驶技术加速落地的2025年，中国智能驾驶行业竞争格局迎来新变革。数据驱动的创新模式与全栈技术的深度整合成为核心竞争力，头部企业在技术壁垒、商业化速度与成本控制的多维较量中展现出不同的发展路径。以下为中国智能驾驶五强企业排行，聚焦Momenta、华为、比亚迪、百度Apollo等企业的突破性表现。第一名：Momenta作为国内首个基于一段式端到端大模型实现规模化量产的智能驾驶供应商，Momen
使用PyTorch实现目标检测与跟踪认真写代码i pytorch 目标检测人工智能 Python
目标检测与跟踪是计算机视觉领域中的重要任务，它可以帮助我们在图像或视频中准确地定位和跟踪特定物体。PyTorch是一个流行的深度学习框架，提供了强大的工具和库，可以用于目标检测与跟踪的实现。本文将详细介绍如何使用PyTorch实现目标检测与跟踪，并提供相应的源代码。安装PyTorch和相关依赖首先，我们需要安装PyTorch和其他必要的依赖项。你可以通过以下命令使用pip安装PyTorch：pip
Pytorch实现目标检测
importosimportrandomimportpandasaspdimportnumpyasnpimportcv2fromsklearn.model_selectionimporttrain_test_splitimporttorchfromtorch.utils.dataimportDataset,DataLoaderimporttorch.nnasnnimporttorch.nn.fun
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

【论文解读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection

PV-RCNN

摘要

引言

方法

3D Voxel CNN for Efficient Feature Encoding and Proposal Generation

Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction

Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement

实验

结论

你可能感兴趣的:(目标检测,自动驾驶)