KrMzyc

BEVFormerV2 论文阅读

论文链接

BEVFormer v2: Adapting Modern Image Backbones to Bird’s-Eye-View Recognition via Perspective Supervision

0. Abstract

提出了一种新颖的 BEV 检测器，具有透视监督，收敛速度更快，更适合现代图像基础架构
优先考虑通过引入透视视图监督来简化BEV检测器的优化
提出了一个两阶段的BEV检测器，其中来自透视头的建议被送入鸟瞰视图头进行最终预测

1. Intro

典型的BEV模型基于图像主干构建，随后通过视角转换模块将透视图像特征提取到BEV特征中，然后通过BEV特征编码器和一些特定任务的头部进一步处理
在适应现代图像骨干网络时面临以下问题：
- 自然图像与自动驾驶场景之间的领域差距。在通用的2D识别任务上预训练的骨干网络无法准确感知三维场景，尤其是估计深度。
- 当前BEV检测器的复杂结构。以 BEVFormer 为例。三维边界框和物体类别标签的监督信号经过视图编码器和物体解码器分离于图像骨干网络，而每个编码器和解码器都由多层Transformer组成。将通用的2D图像骨干网络进行自动驾驶任务的适应时，渐变流动会受到堆叠Transformer层的干扰
为了解决上述在将现代图像主干应用于BEV识别中的困难，将透视监督引入BEVFormer中，即从透视视图任务中获得额外的监督信号，并直接应用于主干
- 在主干上构建了一个透视式3D检测头，它以图像特征作为输入，并直接预测目标物体的3D边界框和类别标签。这个透视头的损失，称为透视损失，作为辅助检测损失被添加到由BEV头产生的原始损失（BEV损失）中

本文贡献

透视监督是将通用的2D图像主干适应到BEV模型的关键。通过透视视图中的检测损失明确添加这种监督
提出了一种新颖的两阶段BEV检测器，BEVFormer v2。它由透视3D和BEV检测头组成，前者的建议与后者的对象查询相结合
通过将本文的方法与最新开发的图像主干相结合，并在nuScenes数据集上取得了显著的改进，突显其有效性

2. Related Works

2.1 BEV 3D 目标检测器

早期工作包括：OFT , Pseduo LiDAR , 和 VPN。它们揭示了如何将透视特征转化为BEV特征，但只针对单个相机或较少知名的任务
- OFT 率先采用了从 2D 图像特征到单目 3D 物体检测的 3D BEV 特征的转换
- Pseudo LiDAR 根据单目深度估计和相机内参创建了伪点云，并随后在 BEV 空间中进行处理
- VPN 是第一个将多视角相机输入融合到一个自顶向下视图的特征图中进行语义分割的方法
现代方法受益于整合来自2D-3D视图转换提供的不同视角传感器特征的便利
- LSS 通过在 BEV 柱特征汇聚时引入潜在深度分布来扩展 OFT
- PETR 设计了一种不需要显式构建 BEV 特征的方法。透视特征图逐元素与 3D 位置嵌入特征映射融合，并应用后续 DET 落式解码器进行目标检测
- BEVFormer 利用空间交叉注意力进行视图转换，利用时间自注意力进行时间特征融合

2.2 相机三维目标检测中的辅助损失

在单目3D目标检测中，辅助损失是普遍存在的，因为大多数方法都是基于2D检测器
- Mono Con 利用多达5种不同的2D监督，充分利用了2D辅助
- 对于BEV检测器，BEVDepth 利用Li - DAR点云对其中间深度网络进行监督
- MV-FCOS3D + + 引入了透视监督来训练其图像主干，但检测器本身只受BEV损失的监督

2.3 两级3D目标检测器

尽管两级检测器在基于LiDAR的三维目标检测中很常见，但它们在基于相机的三维检测中的应用却知之甚少
在两个阶段中使用来自透视主干的相同特征并没有为第二阶段头部提供信息增益
本文的两级检测器同时利用了视角和BEV视角的特征，因此可以同时获得图像和BEV空间的信息

3. BEVFormer V2

采用现代2D图像骨架进行BEV识别，无需繁琐的深度预训练，可以为下游自动驾驶任务解锁许多可能性
提出了BEVformer v2，一个两阶段的BEV检测器，它将BEV和透视监督结合在一起，以便在BEV检测中无扰地采用图像骨干

3.1 总体架构

Fig.1 BEVFormer v2 的整体架构。图像主干生成多视图图像的特征。透视 3D 头进行透视预测，然后将其编码为对象查询。BEV头为编码器-解码器结构。空间编码器通过聚合多视图图像特征来生成 BEV 特征，然后由时间编码器收集历史 BEV 特征。解码器将混合对象查询作为输入，并根据 BEV 特征进行最终的 BEV 预测。整个模型使用两个检测头 $L_{pers}$ 和 $L_{bev}$ 的两个损失项进行训练。

BEVFormer v2主要由五个部分组成：图像骨干、透视3D检测头、空间编码器、改进的时间编码器和BEV检测头
- 与原来的 BEVFormer 相比，除空间编码器外的所有组件都进行了更改
- BEVFormer v2 中使用的所有图像骨架都没有使用任何自动驾驶数据集或深度估计数据集进行预训练
- 引入透视3D检测头，方便2D图像主干的适配，为BEV检测头生成目标建议
- 采用一种新的时态BEV编码器，以更好地整合长期时态信息
- BEV 检测头现在接受一组混合对象查询作为输入
将第一阶段的提议和学习到的对象查询结合起来，形成第二阶段的新混合对象查询

3.2 透视监督

首先分析鸟瞰模型的问题，以解释为什么需要额外的监督

典型的 BEV 模型维护附加到 BEV 平面的网格状特征，其中每个网格聚合来自多视图图像的相应 2D 像素处的特征的 3D 信息。它根据 BEV 特征预测目标对象的 3D 边界框，将这种对 BEV 特征施加的监督称为 BEV 监督
3D 到 2D 视图转换和 DETR 头引入的 BEV 监督的两个根本问题

Fig.2 透视监督(a)和BEV监督(B)的比较。透视检测器的监督信号密集且直接针对图像特征，而 BEV 检测器的监督信号稀疏且间接
- 监督对于图像特征来说是隐式的。该损失直接应用于 BEV 特征，而在 3D 到 2D 投影和对图像特征的仔细采样之后，其作用变为间接
- 监督对于图像特征来说是稀疏的。只有少数参与对象查询的 BEV 网格会造成损失。因此，只有这些网格的 2D 参考点周围的稀疏像素才能获得监控信号
因此，在训练过程中会出现不一致的情况：BEV 检测头依赖于图像特征中包含的 3D 信息，但它为骨干网络如何编码这些信息提供的指导不足

与 BEV 头相比，透视 3D 头对图像特征进行逐像素预测，为适应 2D 图像主干提供更丰富的监督信号，将这种对图像特征施加的监督定义为透视监督

与BEV监督不同，透视检测损失直接且密集地应用于图像特征

3.3 透视损失

透视监督是优化 BEV 模型的关键

在 BEVformer v2 中，通过辅助透视损失引入透视监督
- 在主干上构建透视3D检测头来检测透视图中的目标物体
- 采用类似 FCOS3D 的检测头，它可以预测 3D 边界框的中心位置、大小、方向和投影中心度
- 该头的检测损失，表示为透视损失 $\mathcal{L}_{pers}$ ，作为BEV损失 $\mathcal{L}_{bev}$ 的补充，促进骨干网的优化
$\mathcal{L}_{total} = λ_{bev}\mathcal{L}_{bev} + λ_{pers}\mathcal{L}_{pers} \tag{1}$

3.4 改进的时间编码器

BEVFormer 使用循环时间自注意力来合并历史 BEV 特征。但时间编码器无法利用长期时间信息，简单地将循环步骤从 4 增加到 16 不会产生额外的性能增益
通过使用简单的扭曲和连接策略重新设计了 BEVFormer v2 的时间编码器
- 给定不同帧 k 处的 BEV 特征 $B_k$ ，首先根据帧 t 和帧 k 之间的参考帧变换矩阵 $T^t_k = [\mathbf{R}|\mathbf{t}] ∈ SE3$ 将 $B_k$ 双线性扭曲到当前帧作为 $B^t_k$
- 然后，沿着通道维度将先前的 BEV 特征与当前的 BEV 特征连接起来，并使用残差块来降维
- 为了保持与原始设计类似的计算复杂性，使用相同数量的历史 BEV 特征，但增加了采样间隔
- 除了受益于长期时间信息之外，新的时间编码器还解锁了在离线 3D 检测设置中利用未来 BEV 功能的可能性

3.5 两级 BEV 检测器

设计了一种新颖的结构，将两个头集成到一个两级预测管道中，即两级 BEV 检测器

BEV 头部中的对象解码器是 DETR 解码器，使用一组学习的嵌入作为对象查询，通过训练了解目标对象可能位于的位置。然而，随机初始化的嵌入需要很长时间才能学习适当的位置
在推理过程中，所有图像的学习对象查询都是固定的，这可能不够准确，因为对象的空间分布可能会有所不同

解决方法

透视头的预测通过后处理进行过滤，然后融合到解码器的对象查询中，形成两阶段过程
这些混合对象查询提供了高分（概率）的候选位置，使 BEV 头部更容易在第二阶段捕获目标对象
应该注意的是，第一阶段的建议不一定来自透视检测器，例如来自另一个 BEV 检测器，但实验表明，只有透视的预测对第二阶段 BEV 头有帮助

3.6 具有混合对象查询的解码器

为了将第一阶段提案融合到第二阶段的对象查询中，BEVformer v2 中 BEV 头的解码器基于 BEVFormer 中使用的 Deformable DETR 解码器进行了修改
解码器由堆叠交替的自注意力层和交叉注意力层组成。交叉注意力层是一个可变形注意力模块[44]，它将以下三个元素作为输入
- 内容查询：查询特征产生采样偏移量和注意力权重
- 参考点：值特征上的2D点作为每个查询的采样参考
- 价值特征：需要关注的BEV特征

在原始的 BEVFormer 中，内容查询是一组学习的嵌入，并且参考点是使用线性层从一组学习的位置嵌入中预测的。在 BEVformer v2 中，从透视头获取建议，并通过后处理选择其中的一部分

Fig.3 BEVFromer v2 中 BEV 头的解码器。第一阶段建议的投影中心用作每个图像的参考点（紫色的），并将它们与每个数据集学习的内容查询和位置嵌入（蓝色的）结合起来作为混合对象查询

所选提案的 BEV 平面上的投影框中心用作每个图像的参考点，并与位置嵌入生成的每个数据集的参考点相结合
每个图像的参考点直接指示物体在 BEV 平面上的可能位置，使解码器更容易检测目标物体

4. Experiments

4.1 数据集与指标

数据集：nuScenes
指标：五个真阳性指标，即 ATE、ASE、AOE、AVE 和 AAE，用于测量平移、缩放、分别是方向、速度和属性误差。此外，它还通过将检测精度 (mAP) 与五个真阳性指标相结合来定义 nuScenes 检测分数 (NDS)

4.2 实验设置

使用多种类型的主干网进行实验：ResNet、DLA、VoVNet 和 InternImage
所有主干网均使用在 COCO 数据集的 2D 检测任务上预先训练的检查点进行初始化
透视损失和 BEV 损失的损失权重设置为 $λ_{bev} = λ_{pers} = 1$ 。我们使用 AdamW 优化器，并将基础学习率设置为 4e-4

Tab.1 BEVFormer v2 和其他 SoTA 方法的 nuScenes 测试集上的 3D 检测结果。† 表明 V2-99 [13] 使用额外数据 [27] 在深度估计任务上进行了预训练。 ‡ 表示使用 CBGS 的方法，该方法会将 1 epoch 延长为 4.5 epoch。我们选择仅训练 BEVFormer v2 24 个时期，以便与以前的方法进行公平比较

4.3 基准测试结果

将提出的 BEVFormer v2 与现有最先进的 BEV 探测器进行比较，包括 BEVFormer 、PolarFormer、PETRv2、BEVDepth 和 BEVStereo
由表1可以看出：
- 具有 InternImage-B 主干的 BEVFormer v2 优于所有现有方法，这表明通过透视监督，不再需要在单目 3D 任务上预训练主干
- 采用 InternImage-XL 的 BEVFormer v2 以 63.4% NDS 和 55.6% mAP 的成绩超越了 nuScenes 相机 3D 异议排行榜上的所有条目，以 2.4% NDS 和 3.1% mAP 超过第二名的方法 BEVStereo。示了释放现代图像骨干力量用于 BEV 识别的巨大好处

4.4 消融和分析

4.4.1 透视监督的有效性

为了确认透视监督的有效性，将 3D 检测器与表中不同视图监督组合进行了比较

Tab.2 nuScenes val 集上具有不同视图监督组合的 3D 检测器的检测结果。所有模型均在没有时间信息的情况下进行训练

与 Perspective Only 检测器相比，BEV Only 检测器利用多视图图像实现了更好的 NDS 和 mAP，但其 mATE 和 mAOE 更高，表明了 BEV 监督的根本问题
透视和 BEV 检测器实现了最佳性能，并且优于仅 BEV 检测器
显着的改进主要来自以下两个方面
- 在正常视觉任务上预训练的主干网无法捕获3D场景中对象的一些属性，包括深度、方向和速度，而透视监督引导的主干网能够提取信息关于此类属性
- 与一组固定的对象查询相比，我们的混合对象查询包含第一阶段预测作为参考点，帮助 BEV 头部定位目标对象

4.4.2 透视监督的概括

所提出的透视监督预计将使不同架构和规模的骨干网受益

Tab.3 nuScenes val 集上不同 2D 图像主干的透视监督结果。 ‘BEV Only’和‘Perspective & BEV’与 Tab.2 相同. 所有骨干网均使用 COCO [20] 预训练权重进行初始化，并且所有模型均在没有时间信息的情况下进行训练

BEVForemr v2（BEV 和视角）将所有主干网的 NDS 提高了约 3%，mAP 提高了约 2%，这表明它可以推广到不同的架构和模型大小

4.4.3 训练选项

我们针对不同时期训练 BEV Only 模型和 BEVFormer v2（BEV 和 Perspective）

Tab.4 比较不同训练时期下仅使用 BEV 监督的模型以及同时使用 Perspective 和 BEV 监督的模型。这些模型在 nuScenes val 集上进行评估。所有模型都是在没有时间信息的情况下进行训练的

BEV & Perspective 模型比 BEV Only 模型收敛得更快，证实辅助透视损失有助于优化
表明仅靠 BEV 监督无法很好地适应图像主干

4.4.4 检测头选项

BEVFormer v2 中可以使用各种类型的透视和 BEV 检测头

对于透视头，候选者是 DD3D 和 DETR3D ；对于 BEV 头，候选者是 Deformable DETR 和 Group DETR

Tab.5 BEVFormer v2 中透视头和 BEV 头不同选择的比较。这些模型在 nuScenes val 集上进行评估。所有模型都是在没有时间信息的情况下进行训练的
对于透视头，DD3D 比 DETR3D 更好
Group DETR head 是 Deformable DETR head 的扩展，它利用分组对象查询和每个组内的自注意力。 Group DETR 为 BEV 头实现了更好的性能，但需要更多的计算量

4.4.5 附加功能的消融

消除了 BEVFormer v2 中使用的附加功能，以确认它们对最终结果的贡献

图像级数据增强 (IDA)，图像随机水平翻转
较长的时间间隔
双向时间编码器
透视监督

Tab.6 在 nuScenes val 集上对 BEVFormer v2 的附加功能进行消融研究。所有模型均使用 ResNet-50 主干网络和时间信息进行训练。 “Pers”、“IDA”、“Long”和“Bi”分别表示透视监督、图像级数据增强、长时间间隔和双向时间编码器

5. 总结

将通用 2D 图像主干网适应 BEV 检测器的优化问题。为了解决这个问题，我们通过从额外的视角 3D 检测头添加辅助损失，将视角监督引入到 BEV 模型中
将两个检测头集成为两级检测器，即BEVFormer v2。成熟的透视头提供第一阶段的对象建议，这些建议被编码到 BEV 头的对象查询中以进行第二阶段的预测

局限性

由于计算和时间限制，目前没有在更大规模的图像主干上测试本文的方法

《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
论文阅读——SpectralGPT じんじん论文计算机视觉人工智能
SpectralGPT:SpectralFoundationModelSpectralGPT的通用RS基础模型，该模型专门用于使用新型3D生成预训练Transformer（GPT）处理光谱RS图像。重建损失由两个部分组成：令牌到令牌和频谱到频谱下游任务：
论文阅读：2020GhostNet华为轻量化网络 A_my_* 论文阅读人工智能计算机视觉深度学习
创新：（1）对卷积进行改进（2）加残差连接1、GhostModule1、利用1x1卷积获得输入特征的必要特征浓缩。利用1x1卷积对我们输入进来的特征图进行跨通道的特征提取，进行通道的压缩，获得一个特征浓缩。2、利用深度可分离卷积获得特征浓缩的相似特征图（Ghost）。在获得特征浓缩之后，利用深度可分离卷积进行逐层卷积，进行跨特征点的特征提取，获得额外的特征图，也就是Ghost。将这两个进行堆叠就是
《论文阅读》e-CARE：探索可解释因果推理的新数据集 ACL2022 365JHWZGo NLP 论文阅读因果推理 eCARE 可解释性数据集
《论文阅读》e-CARE：探索可解释因果推理的新数据集ACL2022前言简介数据集优势数据集语料级别的统计数据集示例评分标准前言今天为大家带来的是《e-CARE:aNewDatasetforExploringExplainableCausalReasoning》出版：ACL时间：2022类型：因果推理关键词：情绪原因；可解释的因果推理；数据集作者：LiDu,XiaoDing,KaiXiong,Ti
论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》深视论文阅读笔记 #小样本学习深度学习小样本学习
小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征
论文阅读：四足机器人对抗运动先验学习稳健和敏捷的行走 u小鬼论文阅读论文阅读强化学习四足机器人
论文：LearningRobustandAgileLeggedLocomotionUsingAdversarialMotionPriors进一步学习：AMP，baseline方法，TO摘要：介绍了一种新颖的系统，通过使用对抗性运动先验(AMP)使四足机器人在复杂地形上实现稳健和敏捷的行走。主要贡献包括为机器人生成AMP数据集，并提出一种教师-学生训练框架来学习稳健和敏捷的运动技能。该系统在现实世界
【论文阅读】【yolo系列】YOLO-Pose的论文阅读 magic_ll yolo系列深度学习相关的论文阅读论文阅读 YOLO
Abstract我们介绍YOLO-pose，一种无热图联合检测的新方法，基于流行的YOLO目标检测框架的图像二维多人姿态估计。【现有方法的问题】现有的基于热图的两阶段方法是次优的，因为它们不是端到端可训练的，训练依赖于surrogateL1loss，该损失不能直接优化评估指标–目标关键点相似度（OKS）。【ours优势：端到端训练，并优化OKS指标本身，无复杂的后处理】该模型学习了在一次前向传递中
【论文阅读笔记】（2015 ICML）Unsupervised Learning of Video Representations using LSTMs 小吴同学真棒学习人工智能 LSTM 动作识别无监督自监督 self-supervised
UnsupervisedLearningofVideoRepresentationsusingLSTMs（2015ICML）NitishSrivastava,ElmanMansimov,RuslanSalakhutdinovNotesContributionsOurmodelusesanencoderLSTMtomapaninputsequenceintoafixedlengthrepresent
论文阅读-Hydra: 用于持久内存和RDMA网络的分散文件系统向来痴_ 负载均衡论文网络
论文名称：Hydra:ADecentralizedFileSystemforPersistentMemoryandRDMANetworks摘要新兴的字址持久内存（PM）有可能颠覆内存和存储之间的边界。结合高速RDMA网络，分布式基于PM的存储系统提供了通过紧密耦合PM和RDMA特性来实现存储性能大幅提升的机会。然而，现有的分布式文件系统采用为传统磁盘设计的传统集中式客户端-服务器架构，导致访问延迟
TRS 2024 论文阅读 | 基于点云处理和点Transformer网络的人体活动连续识别 R.X. NLOS #无线感知/雷达成像论文速递论文阅读 transformer 深度学习毫米波雷达点云
注1:本文系“无线感知论文速递”系列之一,致力于简洁清晰完整地介绍、解读无线感知领域最新的顶会/顶刊论文(包括但不限于Nature/Science及其子刊;MobiCom,Sigcom,MobiSys,NSDI,SenSys,Ubicomp;JSAC,雷达学报等)。本次介绍的论文是:文章DOI:10.1109/TRS.2023.3341230。基于点云处理和点Transformer网络的人体活动连
使用动态网格的流体动画 Fluid Animation with Dynamic Meshes 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
目录引言背景方法离散化离散化的导数算子速度插值广义的半拉格朗日步重新网格化双向流固耦合和质量守恒原文：Klingner,BryanM.,etal.“Fluidanimationwithdynamicmeshes.”ACMSIGGRAPH2006Papers.2006.820-825.引言使用[Alliezetal.,2005]的方法动态生成不规则的四面体网格根据边界的位置、边界的形状、基于流体和速
论文阅读-基于动态权重的一致性哈希微服务负载均衡优化向来痴_ 负载均衡论文论文阅读微服务负载均衡
论文名称：基于动态权重的一致性哈希微服务负载均衡优化摘要随着互联网技术的发展，互联网服务器集群的负载能力正面临前所未有的挑战。在这样的背景下，实现合理的负载均衡策略变得尤为重要。为了达到最佳的效率，可以利用一致性哈希算法对集群负载均衡系统进行负载分配。针对微服务架构的服务器集群场景，本文分析了集群负载均衡的特性，并提出了一种基于虚拟节点的一致性哈希环设计与分割方法，以及基于动态权值的分配策略。在一
论文阅读 - Non-Local Spatial Propagation Network for Depth Completion 七元权论文阅读论文阅读深度图补全 NLSPN SPN 深度学习
文章目录1概述2模型说明2.1局部SPN2.2非局部SPN2.3结合置信度的亲和力学习2.3.1传统正则化2.3.2置信度引导的affinity正则化3效果3.1NYUDepthV23.2KITTIDepthCompletion参考资料1概述本文提出了一种非局部的空间传播网络用于深度图补全，简称为NLSPN。（1）为什么需要深度图补全？在AR、无人机控制、自动驾驶和运动规划等应用当中，需要知道物体
【论文阅读笔记】AutoAugment:Learning Augmentation Strategies from Data 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
AutoAugment:LearningAugmentationStrategiesfromData摘要研究方法:本文描述了一种名为AutoAugment的简单程序，通过这个程序可以自动寻找改进的数据增强策略。研究设计了一个策略空间，其中策略包含多个子策略，在每个小批量数据中针对每张图片随机选择一个子策略。每个子策略由两个操作组成，每个操作是图像处理函数（如平移、旋转或剪切），以及应用这些函数的概
『论文阅读|利用深度学习在热图像中实现无人机目标检测』 Dymc 深度学习目标检测论文论文阅读深度学习无人机
利用深度学习在热图像中实现无人机目标检测摘要1引言1.1小物体检测1.2物体检测中的模型组合1.3热图像处理2提出的模型2.1预测头数量2.2骨干网络优化2.3Transformerencoder模块2.4使用滑动窗口和注意力进行卷积2.5训练和运行过程3结果3.1数据集3.2评估指标和平台3.3评估结果4结论论文题目：ObjectDetectioninThermalImagesUsingDeep
『论文阅读|研究用于视障人士户外障碍物检测的 YOLO 模型』 Dymc 论文深度学习目标检测论文阅读 YOLO
研究用于视障人士户外障碍物检测的YOLO模型摘要1引言2相关工作2.1障碍物检测的相关工作2.2物体检测和其他基于CNN的模型3问题的提出4方法4.1YOLO4.2YOLOv54.3YOLOv64.4YOLOv74.5YOLOv84.6YOLO-NAS5实验和结果5.1数据集和预处理5.2训练和实现细节5.3性能指标5.4性能分析5.4.1YOLOv5的结果5.4.2YOLOv6的结果5.4.3Y
草图三维模型生成论文阅读整理 fisherisfish 论文阅读
论文终于接收啦！给草图研究做个收尾就去投实习！仅为个人整理，如有错误，欢迎指出！因为想给论文找创新点，所以需要大量阅读论文，部分论文会精读到实现的步骤，部分论文就记录一下思路。目前基于大模型和深度学习的三维重建任务可以简单分类为text23D，也就是文本控制转三维模型，一般使用语言模型提取文本的特征，然后去噪概率扩散模型生成多视角图像，最后再用NeRF进行三维重建，例如Dreamfusion、Ma
论文阅读-PIM-tree：一种面向内存处理的抗偏移索引向来痴_ 论文阅读
论文名称：PIM-tree:ASkew-resistantIndexforProcessing-in-Memory摘要当今的内存索引性能受到内存延迟/带宽瓶颈的限制。Processing-in-memory(PIM)是一种新兴的方法，可能通过实现低延迟内存访问，其聚合内存带宽随PIM节点数量扩展，来缓解这种瓶颈。然而，在工作负载偏斜的情况下，PIM系统在最小化节点间通信和实现负载平衡之间存在固有的
【论文阅读笔记】Contrastive Learning with Stronger Augmentations 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
ContrastiveLearningwithStrongerAugmentations摘要基于提供的摘要，该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习（ContrastiveLearningwithStrongerAugmentations，简称CLSA）。以下是对摘要的解析：问题陈述：表征学习（representationlearning）已在对比学习方法的推动
使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
原文：Losasso,Frank,FrédéricGibou,andRonFedkiw.“Simulatingwaterandsmokewithanoctreedatastructure.”Acmsiggraph2004papers.2004.457-462.引言这篇文章扩展了[Popinet2003]的工作，拓展到表面自由流，并且使得八叉树不受限制自适应网格划分的一个缺点是，它的模板不是均匀的，
PointMixer论文阅读笔记 ZHANG8023ZHEN 论文阅读笔记
MLP-mixer是最近很流行的一种网络结构，比起Transformer和CNN的节构笨重，MLP-mixer不仅节构简单，而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳，PointMixer就是在保留了MLP-mixer优点的同时，还可以很好的处理点云问题。PointMixer可以很好的处理intra-set,inter-set,hierarchical-set的点云。
MTR++论文阅读 ZHANG8023ZHEN 论文阅读
https://zhuanlan.zhihu.com/p/654070149文章亮点：DenseFuturePredictionforAllAgent：将预测的结果也encode起来，用于平衡障碍物之间的预测结果。不过在infer的时候这一部分不会进行用数据集聚类获得query轨迹点（goal点）：将goal点也进行Transformer，并且让上一帧模型的结果用于下一帧的模型推理，可以使模型的推
论文阅读-EMS: History-Driven Mutation for Coverage-based Fuzzing（2022）模糊测试 Che_Che_ 论文阅读人工智能模糊测试
一、背景本文研究了基于覆盖率的模糊测试中的历史驱动变异技术。之前的研究主要采用自适应变异策略或集成约束求解技术来探索触发独特路径和崩溃的测试用例，但它们缺乏对模糊测试历史的细粒度重用，即它们在不同的模糊测试试验之间很大程度上未能正确利用模糊测试历史。本文提出了一种轻量级且高效的概率字节定向模型（PBOM），以捕获来自试验历史的字节级变异策略，并因此有效地触发独特路径和崩溃。本文还提出了一种新的历史
动态头部:统一目标检测头部与注意力 andeyeluguo AI笔记目标跟踪人工智能计算机视觉
论文地址:https://arxiv.org/pdf/2106.08322.pdfai阅读论文_论文速读_论文阅读软件-网易有道速读创新点是什么?这篇文档的创新点是提出了一种统一的方法，将对象检测头和注意力机制结合起来。作者在文中提出了一种称为DynamicHead的方法，通过引入注意力机制来动态地选择和调整不同的对象检测头，以适应不同的任务和场景。这种方法可以提高对象检测的性能和效率。图摘要在目
论文阅读-面向机器学习的云工作负载预测模型的性能分析向来痴_ 论文阅读
论文名称：PerformanceAnalysisofMachineLearningCenteredWorkloadPredictionModelsforCloud摘要由于异构服务类型和动态工作负载的高变异性和维度，资源使用的精确估计是一个复杂而具有挑战性的问题。在过去几年中，资源使用和流量的预测已受到研究界的广泛关注。许多基于机器学习的工作负载预测模型通过利用其计算能力和学习能力得以发展。本文提出
DCNNs之DNA论文阅读笔记苏十一0421
Article:DeepConvolutionalNeuralNetworkArchitectureWithReconfigurableComputationPatternsJournalTitle:IEEETransactionsonVeryLargeScaleIntegration(VLSI)SystemsIssue:No.08-Aug.(2017vol.25)ISSN:1063-8210pp
论文阅读-Pegasus：通过网络内一致性目录容忍分布式存储中的偏斜工作负载向来痴_ 分布式
论文名称：Pegasus:ToleratingSkewedWorkloadsinDistributedStoragewithIn-NetworkCoherenceDirectories摘要高性能分布式存储系统面临着由于偏斜和动态工作负载引起的负载不平衡的挑战。本文介绍了Pegasus，这是一个利用新一代可编程交换机ASIC来平衡存储服务器负载的新型存储系统。Pegasus使用数据存储中最受欢迎的对
论文阅读，HeteroGen: Automatic Synthesis of Heterogeneous Cache Coherence Protocols（二）好啊啊啊啊论文阅读论文阅读异构多核 cache一致性
目录一、Article:文献出处（方便再次搜索）（1）作者（2）文献题目（3）文献时间（4）引用二、Data:文献数据（总结归纳，方便理解）（1）背景介绍（2）目的（3）贡献（4）主要实现手段4.1前置知识AMBACHI简介PCIE和CXL缓存一致性协议（CacheCoherencyProtocols）内存一致性模型（MemoryConsistencyModels）4.2复合内存一致性模型comp
论文阅读，ProtoGen: Automatically Generating Directory Cache Coherence Protocols（三）好啊啊啊啊论文阅读论文阅读 cache一致性
目录一、Article:文献出处（方便再次搜索）（1）作者（2）文献题目（3）文献时间（4）引用二、Data:文献数据（总结归纳，方便理解）（1）背景介绍（2）目的（3）结论（4）主要实现手段4.1系统模型和定义4.2ProtoGen概述4.3ProtoGen的输入，输出和限制4.4ProtoGen示例（5）实验结果A.StallingProtocolsB.Non-StallingProtocol
论文阅读：GamutMLP A Lightweight MLP for Color Loss Recovery Matrix_11 计算摄影与图像处理论文阅读
这篇文章是关于色彩恢复的一项工作，发表在CVPR2023，其中之一的作者是MichaelS.Brown，这个老师是加拿大York大学的，也是ISP领域的大牛，现在好像也在三星研究院担任兼职，这个老师做了很多这种类似的工作，通过一些轻量模型，将一些数据转换过程中的变换关系进行拟合，然后再进行恢复，比如RAW域到sRGB域的转换，这篇文章是wideRGB到sRGB的转换一般相机的ISP或者一些图像编辑
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo