【AI视野·今日CV 计算机视觉论文速览 第290期】Mon, 15 Jan 2024

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 15 Jan 2024
Totally 66 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第290期】Mon, 15 Jan 2024_第1张图片

Daily Computer Vision Papers

Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery
Authors Caleb Robinson, Isaac Corley, Anthony Ortiz, Rahul Dodhia, Juan M. Lavista Ferres, Peyman Najafirad
充分理解复杂的高分辨率卫星或航空图像场景通常需要在广泛的相关背景下进行空间推理。人体对象识别系统能够在长距离相关上下文中理解场景中的对象。例如,如果一个人观察到一个显示道路部分被树冠破坏的空中场景,那么他们不太可能得出结论,该道路实际上已被树木破坏成不相交的碎片,而是认为附近树木的树冠正在堵塞道路。然而,为了理解现代机器学习模型的长期上下文理解而进行的研究有限。在这项工作中,我们提出了道路分割基准数据集 Chesapeake Roads Spatial Context RSC,用于评估地理空间机器学习模型的空间远程上下文理解,并展示常用的语义分割模型如何无法完成此任务。例如,我们表明,经过训练以从航空图像背景中分割道路的 U Net 在畅通无阻的道路上实现了 84 次召回,但在被树冠覆盖的道路上仅获得 63.5 的召回,尽管经过训练以相同的方式建模。我们进一步分析了模型的性能如何随着我们案例中畅通无阻道路决策的相关上下文距离的变化而变化。

Synthetic Data Generation Framework, Dataset, and Efficient Deep Model for Pedestrian Intention Prediction
Authors Muhammad Naveed Riaz, Maciej Wielgosz, Abel Garcia Romera, Antonio M. Lopez
行人意图预测对于自动驾驶至关重要。特别是,了解行人是否要在自我车辆前面过马路是执行安全和舒适操作的核心。创建准确且快速的模型来根据连续图像预测此类意图具有挑战性。造成这种情况的一个因素是缺乏具有不同交叉和非交叉 C NC 场景的数据集。我们通过引入一个名为 ARCANE 的框架来解决这一稀缺问题,该框架允许以编程方式生成由 C NC 视频剪辑样本组成的合成数据集。例如,我们使用 ARCANE 生成一个名为 PedSynth 的大型且多样化的数据集。我们将展示 PedSynth 如何补充广泛使用的现实世界数据集(例如 JAAD 和 PIE),从而为 C NC 预测提供更准确的模型。考虑到 C NC 预测模型的机载部署,我们还提出了一种名为 PedGNN 的深度模型,该模型速度快且内存占用非常低。

Scalable 3D Panoptic Segmentation With Superpoint Graph Clustering
Authors Damien Robert, Hugo Raguet, Loic Landrieu
我们通过将该任务重新定义为可扩展的图聚类问题,引入了一种用于大型 3D 点云全景分割的高效方法。这种方法可以仅使用本地辅助任务进行训练,从而消除训练期间的资源密集型实例匹配步骤。此外,我们的公式可以很容易地适应超点范式,进一步提高其效率。这使得我们的模型能够在一次推理中处理具有数百万个点和数千个对象的场景。我们的方法称为 SuperCluster,为两个室内扫描数据集(S3DIS Area 5 的 50.1 PQ 7.8 和 ScanNetV2 的 58.7 PQ 25.2)实现了最先进的全景分割性能。我们还为两个大型移动测绘基准 KITTI 360 和 DALES 设置了首个最先进的技术。我们的模型仅包含 209 k 个参数,比最佳竞争方法小 30 倍以上,训练速度提高了 15 倍。

Decoupling Pixel Flipping and Occlusion Strategy for Consistent XAI Benchmarks
Authors Stefan Bl cher, Johanna Vielhaben, Nils Strodthoff
特征去除是 eXplainable AI XAI 的核心构建块,既用于基于遮挡的解释 Shapley 值,也用于评估像素翻转 PF 。然而,遮挡策略可能存在很大差异,从简单的均值替换到使用最先进的扩散模型进行修复。这种模糊性限制了基于遮挡的方法的实用性。例如,PF 基准会导致相互矛盾的排名。竞争性 PF 措施会放大这一点。功能要么从影响最大的第一个 MIF 开始删除,要么从影响最小的第一个 LIF 开始删除。本研究提出了两种互补的观点来解决这一分歧问题。首先,我们解决了对基于遮挡的 XAI 的常见批评,即人工样本导致模型评估不可靠。我们建议通过模型范围外参考 OMS 评分来衡量可靠性。 R OMS 分数可以对遮挡策略进行系统比较,并通过对一致的 PF 排名进行分组来解决分歧问题。其次,我们表明 MIF 和 LIF 的洞察力反过来依赖于 R OMS 分数。为了利用这一点,我们将 MIF 和 LIF 度量结合到对称相关增益 SRG 度量中。这打破了与底层遮挡策略的固有联系,并导致排名一致。

Adversarial Examples are Misaligned in Diffusion Model Manifolds
Authors Peter Lorenz, Ricard Durall, Jansi Keuper
近年来,扩散模型 DM 因其在逼近数据分布、产生最先进的生成结果方面的成功而引起了极大的关注。然而,这些模型的多功能性超出了它们的生成能力,涵盖了各种视觉应用,例如图像修复、分割、对抗鲁棒性等。这项研究致力于通过扩散模型的视角来研究对抗性攻击。然而,我们的目标并不涉及增强图像分类器的对抗鲁棒性。相反,我们的重点在于利用扩散模型来检测和分析这些图像攻击所引入的异常。为此,我们系统地检查了对抗性示例在使用扩散模型进行转换过程时的分布对齐情况。该方法的有效性在 CIFAR 10 和 ImageNet 数据集上进行了评估,包括后者中不同的图像尺寸。

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking
Authors Wei Cao, Chang Luo, Biao Zhang, Matthias Nie ner, Jiapeng Tang
我们引入了 Motion2VecSets,这是一种用于从点云序列进行动态表面重建的 4D 扩散模型。虽然现有的最先进方法已经证明使用神经场表示重建非刚性物体是成功的,但传统的前馈网络遇到了来自噪声、部分或稀疏点云的模糊观察的挑战。为了解决这些挑战,我们引入了一种扩散模型,该模型通过压缩潜在表示的迭代去噪过程显式地学习非刚性对象的形状和运动分布。在处理模糊输入时,基于扩散的先验可以实现更合理和概率性的重建。我们使用潜在向量集来参数化 4D 动力学,而不是使用全局潜在变量。这种新颖的 4D 表示使我们能够学习局部表面形状和变形模式,从而实现更准确的非线性运动捕捉,并显着提高对看不见的运动和身份的概括性。为了更加时间连贯的对象跟踪,我们同步对变形潜在集进行去噪并跨多个帧交换信息。为了避免计算开销,我们设计了一个交错的空间和时间注意块,以沿着空间和时间域交替聚合潜在变形。与最先进方法的广泛比较证明了我们的 Motion2VecSets 在根据各种不完美观察进行 4D 重建方面的优越性,特别是与 CaDex 相比,在从 DeformingThings4D Animals 数据集上的稀疏点云重建看不见的个体时,联合 IoU 的交集提高了 19 倍。

360DVD: Controllable Panorama Video Generation with 360-Degree Video Diffusion Model
Authors Qian Wang, Weiqi Li, Chong Mou, Xinhua Cheng, Jian Zhang
360 度全景视频最近吸引了更多研究和应用的兴趣,这得益于它们所带来的高度沉浸式体验。由于捕获360度全景视频的成本昂贵,迫切需要根据给定的提示生成理想的全景视频。最近,新兴的文本到视频 T2V 扩散方法在标准视频生成中表现出显着的有效性。然而,由于全景视频和标准视频在内容和运动模式方面存在显着差距,这些方法在生成令人满意的 360 度全景视频方面遇到了挑战。在本文中,我们提出了一种名为 360 度视频扩散模型 360DVD 的可控全景视频生成管道,用于根据给定的提示和运动条件生成全景视频。具体来说,我们引入了一个名为 360 Adapter 的轻量级模块,并辅助 360 增强技术来转换预先训练的 T2V 模型以生成 360 度视频。我们进一步提出了一个名为 WEB360 的新全景数据集,由 360 度视频文本对组成,用于训练 360DVD,解决了缺乏带字幕的全景视频数据集的问题。大量的实验证明了 360DVD 在全景视频生成方面的优越性和有效性。

Resource-Efficient Gesture Recognition using Low-Resolution Thermal Camera via Spiking Neural Networks and Sparse Segmentation
Authors Ali Safa, Wout Mommen, Lars Keuninckx
这项工作提出了一种新的手势识别方法,使用廉价、低分辨率的 24 x 32 热传感器,由尖峰神经网络 SNN 处理,然后通过鲁棒主成分分析 R PCA 进行稀疏分割和基于特征的手势分类。与使用标准 RGB 相机相比,所提出的系统对照明变化不敏感,同时与文献中先前使用的高频雷达、飞行时间相机和高分辨率热传感器相比,成本显着降低。至关重要的是,本文表明,与深度学习方法相比,创新地使用最近提出的单稳态多谐振荡器 MMV 神经网络作为一类新型 SNN,可实现比深度学习方法小一个数量级以上的内存和计算复杂性,同时达到最高的手势识别精度93.9 使用在汽车环境中的车厢内采集的 5 级热像仪数据集。

Multimodal Learning for detecting urban functional zones using remote sensing image and multi-semantic information
Authors Chuanji Shi, Yingying Zhang, Jiaotuan Wang, Qiqi Zhu
城市兴趣区 AOI 是指具有明确边界的综合城市功能区。城市商业的快速发展对 AOI 的定义提出了更加精确的要求。然而,现有研究主要集中于城市规划或区域经济分析的广泛AOI挖掘,未能满足移动互联网线上线下业务的精准需求。这些业务需要精确到特定的社区、学校或医院。在本文中,我们提出了一种使用遥感图像和多语义参考信息检测 AOI 栅栏多边形的端到端多模态深度学习算法。然后,我们通过包含动态人员流动和物流地址信息的级联模块评估其及时性。具体来说,我们首先选择特定类别的兴趣点POI,并用它来调用相应的遥感图像、附近的POI、道路节点、人员流动性和物流地址,构建基于Transformer编码器解码器架构的多模态检测模型,标题为 AOITR。该模型中,除了遥感图像外,还嵌入并重组了包括核心POI和道路节点在内的多语义信息,作​​为Transformer解码器生成AOI多边形的查询内容部分。同时,通过级联前馈网络,利用人员流动性、附近 POI 和物流地址的相对动态分布特征来进行 AOI 可靠性评估。

Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning
Authors Chenyang Wang, Junjun Jiang, Xingyu Hu, Xianming Liu, Xiangyang Ji
深度学习系统在从一系列任务中学习时很容易出现灾难性遗忘,而在从新任务中学习时,无法获得来自经验丰富的任务的旧数据。为了缓解这个问题,一系列方法建议在学习新任务时重放经验任务的数据。这些方法通常采用额外的存储器来存储回放数据。然而,考虑到内存限制或数据隐私问题,在实践中并不期望这样做。作为替代方案,通过反转分类模型中的样本,提出了无数据数据重放方法。尽管取得了良好的效果,但这些方法仍然存在反演数据与真实训练数据不一致的问题,这一点在最近的工作中在反演阶段被忽略了。为此,我们建议通过一些简化和假设来定量测量数据一致性。利用测量结果,我们分析了现有的样本反演技术,并获得了一些富有洞察力的信息,这些信息激发了一种新的损失函数来减少不一致性。具体来说,该损失在绑定多元高斯假设下最小化了倒置数据和真实数据分布的 KL 散度,这在持续学习中很容易实现。此外,我们观察到,随着学习的进展,旧班级权重的标准不断下降。因此,我们分析了根本原因,并提出了一个简单的正则化项来平衡类别权重,以使旧类别的样本更具可区分性。总之,我们提出了针对类增量学习 CCIL 的带有去偏分类器的一致性增强数据重放。

Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook
Authors Ziying Song, Lin Liu, Feiyang Jia, Yadan Luo, Guoxin Zhang, Lei Yang, Li Wang, Caiyan Jia
在现代自动驾驶领域,感知系统对于准确评估周围环境的状态,从而实现明智的预测和规划是不可或缺的。该系统的关键是 3D 物体检测方法,利用车载传感器(例如 LiDAR 和摄像头)来识别附近物体的大小、类别和位置。尽管旨在提高检测精度和效率的 3D 物体检测方法激增,但系统地检查其对环境变化、噪声和天气变化的适应能力的文献中仍存在空白。这项研究强调了在实际场景下评估感知系统时鲁棒性以及准确性和延迟的重要性。我们的工作对基于相机、基于 LiDAR 和多模态 3D 对象检测算法进行了广泛的调查,彻底评估了它们在准确性、延迟和鲁棒性之间的权衡,特别是在 KITTI C 和 nuScenes C 等数据集上,以确保公平比较。其中,多模态 3D 检测方法表现出卓越的鲁棒性,并引入了一种新颖的分类法来重新组织其文献以提高清晰度。

PCB-Vision: A Multiscene RGB-Hyperspectral Benchmark Dataset of Printed Circuit Boards
Authors Elias Arbash, Margret Fuchs, Behnood Rasti, Sandra Lorenz, Pedram Ghamisi, Richard Gloaguen
针对回收电子废物的关键主题,该贡献致力于开发先进的自动化数据处理管道,作为决策和过程控制的基础。与循环经济和联合国可持续发展目标 SDG 的更广泛目标相一致,我们的工作利用 RGB 和高光谱成像数据的非侵入性分析方法,提供电子废物流成分的定量和定性见解,以优化回收效率。在本文中,我们介绍了 PCB Vision,这是一个开创性的 RGB 高光谱印刷电路板 PCB 基准数据集,其中包含 53 个高空间分辨率的 RGB 图像及其相应的可见光和近红外 VNIR 范围内的高光谱分辨率高光谱数据立方体。我们的数据集以开放科学原则为基础,通过高质量的基本事实为研究人员提供了全面的资源,重点关注三种主要 PCB 元件集成电路、电容器和连接器。我们对所提出的数据集以及几种最先进的 SOTA 模型的性能进行了广泛的统计调查,包括 U Net、Attention U Net、Residual U Net、LinkNet 和 DeepLabv3。通过公开共享这个多场景基准数据集以及基线代码,我们希望促进各个科学界(包括但不限于计算机视觉和遥感)先进数据处理的透明、可追溯和可比较的发展。

Exploring Diverse Representations for Open Set Recognition
Authors Yu Wang, Junxian Mu, Pengfei Zhu, Qinghua Hu
开放集识别 OSR 要求模型对属于封闭集的样本进行分类,同时在测试过程中拒绝未知样本。目前,生成模型在 OSR 中通常比判别模型表现更好,但最近的研究表明,生成模型在复杂任务上可能在计算上不可行或不稳定。在本文中,我们提供了对 OSR 的见解,并发现学习补充表示理论上可以降低开放空间风险。基于分析,我们提出了一种新模型,即多专家多样化注意力融合 MEDAF,它以判别性的方式学习不同的表示。 MEDAF 由多个专家组成,这些专家通过注意力多样性正则化项进行学习,以确保注意力图相互不同。每个专家学习到的逻辑被自适应地融合并用于通过评分函数来识别未知数。我们表明,注意力图的差异可以导致不同的表示,以便融合的表示可以很好地处理开放空间。在标准和 OSR 大规模基准上进行了大量的实验。结果表明,所提出的判别方法在 AUROC 上的性能比现有的生成模型高出 9.5,并且以很少的计算成本实现了新的最先进的性能。我们的方法还可以无缝集成现有的分类模型。

Frequency Masking for Universal Deepfake Detection
Authors Chandler Timm Doloriel, Ngai Man Cheung
我们研究通用深度伪造检测。我们的目标是从一系列生成人工智能方法中检测合成图像,特别是在深度伪造检测器训练期间看不见的新兴图像。通用的深度换脸检测需要出色的泛化能力。受最近提出的蒙版图像建模的启发,该模型在自监督预训练中表现出了出色的泛化能力,我们首次尝试探索用于通用深度伪造检测的蒙版图像建模。我们研究训练深度伪造探测器时的空间和频域掩蔽。基于实证分析,我们提出了一种通过频率掩蔽的新型深度伪造检测器。我们对频域的关注与大多数人不同,大多数人主要针对空间域检测。我们的比较分析表明,与现有方法相比,性能有了显着提升。

Improving the Detection of Small Oriented Objects in Aerial Images
Authors Chandler Timm C. Doloriel, Rhandley D. Cajote
在大规模航空图像中代表微小像素区域的小方向物体由于其尺寸和方向而难以检测。现有的定向空中探测器已显示出有希望的结果,但主要集中于方向建模,而较少考虑物体的大小。在这项工作中,我们提出了一种通过增强定向物体检测模型的分类和回归任务来准确检测航拍图像中的小定向物体的方法。我们设计的注意力点网络由两种损失组成:Guided Attention Loss GALoss 和 Box Points Loss BPLoss 。 GALoss 使用实例分割掩码作为基本事实来学习改进小物体检测所需的注意特征。然后,使用这些注意特征来预测 BPLoss 的框点,从而确定相对于面向目标的边界框的点位置。实验结果表明,我们的注意力点网络在具有小对象实例 DOTA v1.5 的面向标准的航空数据集和海事相关数据集 HRSC2016 上的有效性。

Self-supervised Learning of Dense Hierarchical Representations for Medical Image Segmentation
Authors Eytan Kats, Jochen G. Hirsch, Mattias P. Heinrich
本文演示了一种自监督框架,用于学习针对密集下游任务定制的体素粗略到精细表示。我们的方法源于这样的观察:由于固有的架构偏差,现有的分层表示学习方法倾向于优先考虑全局特征而不是局部特征。为了应对这一挑战,我们设计了一种训练策略,平衡多个尺度特征的贡献,确保学习到的表示捕获粗粒度和细粒度的细节。我们的策略包含 3 倍改进:1 本地数据增强,2 分层平衡架构,3 混合对比恢复损失函数。

AttributionScanner: A Visual Analytics System for Metadata-Free Data-Slicing Based Model Validation
Authors Xiwei Xuan, Jorge Piazentin Ono, Liang Gou, Kwan Liu Ma, Liu Ren
数据切片查找是一种用于评估机器学习模型的新兴技术。它的工作原理是识别指定数据集中性能较差的子组,这些子组通常由不同的特征集或元信息定义。然而,在非结构化图像数据的背景下,数据切片查找提出了两个显着的挑战:它需要额外的元数据,这是一项费力且昂贵的要求,并且还需要付出巨大的努力来解释数据切片内性能不佳的根本原因。为了应对这些挑战,我们推出了 AttributionScanner,这是一种创新的人在环视觉分析 VA 系统,专为基于数据切片的机器学习 ML 模型验证而设计。我们的方法擅长识别可解释的数据切片,采用通过可解释 AI XAI 技术提取的可解释特征,并消除文本注释或跨模型嵌入的额外元数据的必要性。 AttributionScanner 能够熟练地查明关键模型问题,包括虚假相关性和错误标记的数据。我们新颖的 VA 界面直观地总结了数据切片,使用户能够轻松收集对模型行为模式的见解。此外,我们的框架通过授权领域专家使用尖端的神经网络正则化技术来解决模型问题,从而结束了机器学习开发周期。通过两个原型用例强调了 AttributionScanner 的功效,阐明了其在以视觉为中心的任务的模型验证中的实质性有效性。

RotationDrag: Point-based Image Editing with Rotated Diffusion Features
Authors Minxing Luo, Wentao Cheng, Jian Yang
在保持图像保真度的同时对图像内容进行精确且用户友好的操作一直是图像编辑领域的关键。得益于生成模型的强大功能,最近的基于点的图像编辑方法允许用户通过单击多个控制点以交互方式更改具有高通用性的图像内容。但上述编辑过程通常基于这样的假设:特征在从初始点到目标点的运动监督步骤中保持不变。在这项工作中,我们对扩散模型的特征空间进行了全面的研究,发现特征在平面旋转下发生剧烈变化。基于此,我们提出了一种名为 RotationDrag 的新颖方法,当用户打算平面旋转图像内容时,它可以显着提高基于点的图像编辑性能。我们的方法利用旋转图像的特征图更精确地跟踪手柄点,从而确保精确的优化和高图像保真度。此外,我们建立了一个名为 RotateBench 的平面旋转基准,这是第一个评估平面旋转场景下基于点的图像编辑方法在真实图像和生成图像上的性能的基准。彻底的用户研究通过比较 DragDiffusion 基线和其他现有的基于扩散的方法,证明了实现用户想要实现的平面旋转的卓越能力。

Improving Low-Light Image Recognition Performance Based on Image-adaptive Learnable Module
Authors Seitaro Ono, Yuka Ogino, Takahiro Toizumi, Atsushi Ito, Masato Tsukada
近年来,基于深度神经网络的图像识别技术取得了重大进展。然而,提高弱光条件下的识别性能仍然是一个重大挑战。这项研究致力于增强弱​​光条件下的识别模型性能。我们提出了一种图像自适应可学习模块,该模块对输入图像应用适当的图像处理,并使用超参数预测器来预测模块中使用的最佳参数。我们提出的方法可以通过轻松集成为前端滤波器来增强低光条件下的识别性能,而无需重新训练专为低光条件设计的现有识别模型。

Mutual Distillation Learning For Person Re-Identification
Authors Huiyuan Fu, Kuilong Cui, Chuanming Wang, Mengshi Qi, Huadong Ma
随着深度学习技术的快速进步,行人再识别ReID的性能得到了显着的提升。然而,大多数先前的工作传统上都专注于通过仅从单一角度提取特征来解决问题,例如统一划分、硬注意力机制或语义掩码。虽然这些方法在特定情况下已证明有效,但在不同情况下却存在不足。在本文中,我们提出了一种新颖的方法,即用于行人再识别的相互蒸馏学习,称为 MDPR,它在单个统一模型中从多个角度解决了具有挑战性的问题,利用相互蒸馏的力量来共同增强特征表示。具体来说,我们的方法包含两个分支:硬内容分支通过统一的水平分区策略提取局部特征,软内容分支动态区分前景和背景,并通过精心设计的注意力机制促进多粒度特征的提取。为了促进这两个分支之间的知识交换,采用相互蒸馏和融合的过程,提高每个分支的输出能力。在广泛使用的人员 ReID 数据集上进行了大量的实验,以验证我们方法的有效性和优越性。值得注意的是,我们的方法在 DukeMTMC reID 数据集上的 mAP Rank 1 中取得了令人印象深刻的 88.7 94.4,超过了当前最先进的结果。

UPDP: A Unified Progressive Depth Pruner for CNN and Vision Transformer
Authors Ji Liu, Dehua Tang, Yuanxian Huang, Li Zhang, Xiaocheng Zeng, Dong Li, Mingjie Lu, Jinzhang Peng, Yu Wang, Fan Jiang, Lu Tian, Ashish Sirasao
传统的通道明智修剪方法通过减少网络通道来有效地修剪具有深度明智卷积层和某些高效模块(例如流行的反向残差块)的高效 CNN 模型。由于一些归一化层的存在,先前通过减少网络深度的深度剪枝方法不适合剪枝一些高效模型。此外,通过直接删除激活层来微调子网会破坏原始模型权重,阻碍剪枝后的模型实现高性能。为了解决这些问题,我们提出了一种新的有效模型深度修剪方法。我们的方法提出了一种新颖的子网块修剪策略和渐进式训练方法。此外,我们将修剪方法扩展到视觉变换器模型。实验结果表明,我们的方法在各种修剪配置中始终优于现有的深度修剪方法。我们将我们的方法应用在 ConvNeXtV1 上,获得了三个剪枝的 ConvNeXtV1 模型,它们超越了具有可比推理性能的大多数 SOTA 高效模型。

3D Reconstruction of Interacting Multi-Person in Clothing from a Single Image
Authors Junuk Cha, Hansol Lee, Jaewon Kim, Nhat Nguyen Bao Truong, Jae Shin Yoon, Seungryul Baek
本文介绍了一种新颖的管道,可以根据单个图像在全局连贯的场景空间上重建穿着服装的多人交互的几何形状。主要的挑战来自于遮挡,由于他人或自身的遮挡,人体的一部分从单一视图中不可见,这导致了几何形状的缺失和物理上的不可信性,例如穿透。我们利用两个人类先验知识来实现​​完整的 3D 几何和表面接触,从而克服了这一挑战。对于几何先验,编码器学习将缺失身体部位的人的图像回归为潜在向量,解码器对这些向量进行解码以生成相关几何形状的 3D 特征,隐式网络将这些特征与表面法线贴图结合起来以进行重建完整且详细的 3D 人体。对于接触先验,我们开发了一个图像空间接触检测器,它输出 3D 中人与人之间表面接触的概率分布。我们使用这些先验来全局细化身体姿势,从而实现场景空间中穿着服装的交互式多人的无渗透和准确重建。

UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding
Authors Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang
以对比语言图像预训练 CLIP 为代表的视觉语言基础模型由于联合理解视觉和文本任务而受到越来越多的关注。然而,现有的方法主要侧重于训练模型以将全局图像表示与文本描述相匹配,从而忽略了局部区域与相应文本标记之间的关键对齐。本文通过多粒度对齐扩展了 CLIP。值得注意的是,我们特意构建了一个新的数据集,其中包含各种粒度级别的伪注释,包括图像级别、区域级别和像素级别标题标签。因此,我们开发了一个统一的多粒度学习框架,名为 UMG CLIP,它同时赋予模型跨不同细节级别的多功能感知能力。 UMG CLIP 配备参数高效调整,超越了当前广泛使用的 CLIP 模型,并在各种图像理解基准上实现了最先进的性能,包括开放世界识别、检索、语义分割和全景分割任务。

ModaVerse: Efficiently Transforming Modalities with LLMs
Authors Xinyu Wang, Bohan Zhuang, Qi Wu
人类拥有理解不同模式并在它们之间无缝传输信息的能力。在这项工作中,我们介绍了 ModaVerse,一种多模态大型语言模型 MLLM,能够跨各种模态(包括图像、视频和音频)理解和转换内容。主要的 MLLM 框架在很大程度上依赖于文本和非文本特征的潜在空间的对齐。这种对齐过程将文本数据训练的语言模型与多模态数据训练的编码器和解码器同步,通常需要在多个阶段对多个投影层进行广泛的训练。受 LLM 作为代理方法的启发,我们提出了一种直接在自然语言级别运行的新颖的输入输出 I O 对齐机制。它将 LLM 的输出与生成模型的输入保持一致,避免了与潜在特征对齐相关的复杂性,并将现有 MLLM 的多个训练阶段简化为单个高效的流程。这种概念上的进步导致数据和计算成本的显着降低。

SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical Refinement and EM optimization
Authors Zhenlong Yuan, Jiakai Cao, Zhaoxin Li, Hao Jiang, Zhaoqi Wang
在本文中,我们介绍了分段驱动变形多视图立体 SD MVS,这是一种可以有效解决无纹理区域 3D 重建挑战的方法。我们是第一个采用分段任意模型 SAM 来区分场景中的语义实例,并进一步利用这些约束在匹配成本和传播上进行像素级补丁变形。同时,我们提出了一种独特的细化策略,结合了球坐标和法线梯度下降以及深度像素搜索间隔,显着提高了重建 3D 模型的完整性。此外,我们采用期望最大化EM算法来交替优化聚合匹配成本和超参数,有效缓解参数过度依赖经验调整的问题。

SamLP: A Customized Segment Anything Model for License Plate Detection
Authors Haoxuan Ding, Junyu Gao, Yuan Yuan, Qi Wang
随着基础模型的出现,这种新颖的深度学习范式催生了自然语言处理和计算机视觉领域的许多强大成就。基础模型具有许多优点,如优异的特征提取能力、强大的泛化能力、强大的少镜头和零镜头学习能力等,有利于视觉任务。作为车辆的唯一标识,不同国家和地区的车牌LP样式和外观各不相同,甚至不同类型的车辆有不同的LP。然而,最近基于深度学习的车牌检测器主要在特定数据集上进行训练,这些有限的数据集限制了车牌检测器的有效性和鲁棒性。为了减轻有限数据的负面影响,本文尝试利用基础模型的优势。我们为车牌检测任务定制了一个视觉基础模型,即 Segment Anything Model SAM ,并提出了第一个基于视觉基础模型的车牌检测器,命名为 SamLP。具体来说,我们设计了一种低秩适应 LoRA 微调策略,将额外的参数注入 SAM 并将 SAM 转移到 LP 检测任务中。然后,我们进一步提出了一个及时的微调步骤,为 SamLP 提供及时的分割能力。实验表明,与其他 LP 检测器相比,我们提出的 SamLP 实现了有希望的检测性能。同时,所提出的 SamLP 具有很强的少镜头和零镜头学习能力,这显示了迁移视觉基础模型的潜力。

Graph Relation Distillation for Efficient Biomedical Instance Segmentation
Authors Xiaoyu Liu, Yueyi Zhang, Zhiwei Xiong, Wei Huang, Bo Hu, Xiaoyan Sun, Feng Wu
深度神经网络预测的实例感知嵌入彻底改变了生物医学实例分割,但其资源需求非常大。知识蒸馏提供了一种解决方案,它将蒸馏知识从繁重的教师网络转移到轻量级但高性能的学生网络。然而,现有的知识蒸馏方法难以提取用于区分实例的知识,并且忽略了全局关系信息。为了解决这些挑战,我们提出了一种用于高效生物医学实例分割的图关系蒸馏方法,该方法考虑了三种基本类型的知识实例级特征、实例关系和像素级边界。我们介绍了在图像内级别和图像间级别部署的两种图蒸馏方案,实例图蒸馏 IGD 和亲和图蒸馏 AGD 。 IGD 构造一个表示实例特征和关系的图,通过强制实例图一致性来传递这两类知识。 AGD构建表示像素关系的亲和图来捕获实例边界的结构化知识,通过确保像素亲和一致性来传递边界相关知识。

Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering
Authors Chang Yu, Junran Peng, Xiangyu Zhu, Zhaoxiang Zhang, Qi Tian, Zhen Lei
通过扩散模型进行文本到图像合成最近在生成高质量图像方面表现出了卓越的性能。尽管对于简单文本表现良好,但当面对包含多个对象或空间关系的复杂文本时,模型可能会感到困惑。为了得到想要的图像,一种可行的方法是手动调整文本描述,即对文本进行叙述或添加一些文字,这比较费力。在本文中,我们提出了一个框架,通过即时学习来学习扩散模型的正确文本描述。通过利用预先训练的扩散模型得出的质量指导和语义指导,我们的方法可以有效地学习提示,以提高输入文本和生成图像之间的匹配度。

Hyper-STTN: Social Group-aware Spatial-Temporal Transformer Network for Human Trajectory Prediction with Hypergraph Reasoning
Authors Weizheng Wang, Le Mao, Baijian Yang, Guohua Chen, Byung Cheol Min
预测拥挤的意图和轨迹对于各种现实世界的应用(包括服务机器人和自动驾驶汽车)至关重要。理解环境动力学具有挑战性,不仅因为建模成对的空间和时间相互作用的复杂性,而且因为群体相互作用的不同影响。为了解码拥挤场景中全面的成对和分组交互,我们引入了 Hyper STTN,这是一种基于超图的空间时间变换网络,用于人群轨迹预测。在 Hyper STTN 中,拥挤的分组相关性是使用一组具有不同组大小的多尺度超图来构建的,这些超图是通过基于随机游走可靠性的超图谱卷积捕获的。此外,时空转换器适用于捕获行人在时空维度上的成对潜在交互。然后,这些异构组和成对通过多模态变压器网络进行融合和对齐。

AffordanceLLM: Grounding Affordance from Vision Language Models
Authors Shengyi Qian, Weifeng Chen, Min Bai, Xiong Zhou, Zhuowen Tu, Li Erran Li
可供性基础是指找到一个对象可以与之交互的区域的任务。这是一项基本但具有挑战性的任务,因为成功的解决方案需要从多个方面全面了解场景,包括物体及其部件的检测、定位和识别、场景的地理空间配置布局、3D 形状和物理、以及物体和人类的功能和潜在交互。许多知识是隐藏的,超出了来自有限训练集的监督标签的图像内容。在本文中,我们尝试利用预训练的大规模视觉语言模型中丰富的世界、抽象和人类对象交互知识来提高当前可供性基础的泛化能力。在 AGD20K 基准下,我们提出的模型在野外对象可供性接地方面表现出比竞争方法显着的性能增益。我们进一步证明,即使在训练期间看不到物体和动作,它也可以从随机互联网图像中获得物体的可供性。

Application Of Vision-Language Models For Assessing Osteoarthritis Disease Severity
Authors Banafshe Felfeliyan, Yuyue Zhou, Shrimanti Ghosh, Jessica Kupper, Shaobo Liu, Abhilash Hareendranathan, Jacob L. Jaremko
骨关节炎 OA 构成了全球健康挑战,需要精确的诊断方法。目前的放射线照相评估非常耗时且容易发生变化,因此需要自动化解决方案。现有的 OA 评估深度学习模型是单模态单任务系统,它们不包含相关的文本信息,例如患者人口统计、疾病史或医生报告。本研究探讨了如何利用视觉语言处理 VLP 模型,利用 X 射线图像和相应报告来预测 OA 严重程度。我们的方法利用膝盖的 X 射线图像和从表格 OA 评分值生成的各种报告模板来训练 CLIP 对比语言图像预训练风格的 VLP 模型。此外,我们还加入了额外的对比标题,以强制模型区分正面和负面报告。

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention
Authors Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu
最近,Vision Transformer 在恢复低分辨率序列中丢失的细节(即视频超分辨率 VSR 任务)方面取得了巨大成功。尽管其在 VSR 精度方面具有优势,但繁重的计算负担以及较大的内存占用阻碍了基于 Transformer 的部署

Beyond the Surface: A Global-Scale Analysis of Visual Stereotypes in Text-to-Image Generation
Authors Akshita Jha, Vinodkumar Prabhakaran, Remi Denton, Sarah Laszlo, Shachi Dave, Rida Qadri, Chandan K. Reddy, Sunipa Dev
最近的研究强调了文本到图像 T2I 模型世代中对不同身份群体的人的刻板描述问题。然而,这些现有的方法有几个关键的局限性,包括在评估中明显缺乏对全球身份群体的覆盖,以及其相关刻板印象的范围。此外,他们常常缺乏对固有视觉刻板印象(例如体重过轻或宽边帽)与文化依赖性刻板印象(例如有吸引力或恐怖分子)之间的严格区分。在这项工作中,我们通过多方面的方法解决了这些局限性,该方法利用现有的文本资源,将我们对 T2I 模型生成的图像中的地理文化刻板印象的评估作为基础。我们利用现有的刻板印象基准来识别和评估全球范围内的视觉刻板印象,涵盖 135 个国籍的身份群体。我们证明,与其他属性相比,刻板属性出现在这些身份图像中的可能性是其他属性的三倍。我们进一步调查了不同国籍的生成图像的描述有多么不同的冒犯性。最后,通过详细的案例研究,我们揭示了所有身份群体的默认表示如何具有刻板的外观。此外,对于南半球国家来说,即使有明确提示,不同属性的图像在视觉上也是相似的。

Frequency-Time Diffusion with Neural Cellular Automata
Authors John Kalkhof, Arlene K hn, Yannik Frisch, Anirban Mukhopadhyay
去噪扩散模型 DDM 已成为合成高质量图像的领先生成技术,但通常受到基于 UNet 的架构的限制,从而带来了某些限制。特别是,当硬件资源有限时,通常数亿个参数的相当大的大小使得它们不切实际。然而,即使拥有强大的硬件,处理十亿像素范围的图像也很困难。在显微镜或卫星成像等领域尤其如此,这些挑战源于对预定义生成尺寸的限制以及对更大图像的低效缩放。我们提出了两种基于神经元胞自动机 NCA 的 DDM 方法来解决这些挑战,并启动基于 NCA 的 DDM Diff NCA 和 FourierDiff NCA。 Diff NCA 仅使用底层分布的局部特征来执行扩散,使其适合局部特征至关重要的应用。为了传达图像空间中的全局知识,朴素的 NCA 设置需要随着图像比例而增加的时间步长。我们通过引入 FourierDiff NCA 解决了当前 NCA 架构的这一瓶颈,它通过添加基于傅立叶的扩散过程并将频率组织的傅立叶空间与图像空间相结合来改进 Diff NCA。通过在傅立叶域中启动扩散并在图像空间中完成扩散,FourierDiff NCA 加速了全球通信。我们通过使用 Diff NCA 208k 参数生成 576x576 分辨率的高分辨率数字病理学扫描和 FourierDiff NCA 887k 参数来合成 64x64 的 CelebA 图像来验证我们的技术,其性能优于 VNCA 和基于 UNet 的五倍大的 DDM。

Hierarchical Augmentation and Distillation for Class Incremental Audio-Visual Video Recognition
Authors Yukun Zuo, Hantao Yao, Liansheng Zhuang, Changsheng Xu
视听视频识别 AVVR 旨在​​整合音频和视觉线索,对视频进行准确分类。虽然现有方法使用提供的数据集训练 AVVR 模型并取得令人满意的结果,但在现实世界中遇到新类别时,它们很难保留历史类别知识。目前还没有专门的方法来解决这个问题,因此本文重点探索类增量视听视频识别 CIAVVR 。对于 CIAVVR 来说,由于存储的数据和过去类别的学习模型都包含历史知识,因此核心挑战是如何捕获过去的数据知识和过去的模型知识以防止灾难性遗忘。我们引入了分层增强和蒸馏 HAD,它包括分层增强模块 HAM 和分层蒸馏模块 HDM,分别有效地利用数据和模型的分层结构。具体来说,HAM 实施了一种新颖的增强策略,即分段特征增强,以保留分层模型知识。同时,HDM引入了新设计的分层视频分布逻辑蒸馏和分层片段视频相关蒸馏来分别捕获和维护每个数据的分层样本内知识和数据之间的分层样本间知识。对 AVE、AVK 100、AVK 200 和 AVK 400 四个基准的评估表明,所提出的 HAD 有效地捕获了数据和模型中的层次信息,从而更好地保存了历史类别知识并提高了性能。

A Study on Self-Supervised Pretraining for Vision Problems in Gastrointestinal Endoscopy
Authors Edward Sanderson, Bogdan J. Matuszewski
胃肠内窥镜视觉任务的解决方案 GIE 通常使用以 ImageNet 1k 作为主干的监督方式预训练的图像编码器。然而,使用现代自监督预训练算法和最新的 10 万张未标记 GIE 图像 Hyperkvasir 未标记数据集可能会带来改进。在这项工作中,我们研究了具有 ResNet50 和 ViT B 主干的模型的微调性能,这些模型以自监督和 ImageNet 1k 和 Hyperkvasir 未标记自监督方式进行预训练,仅在一系列 GIE 视觉任务中进行。除了为每个任务确定最合适的预训练管道和主干架构之外,我们的结果表明,自监督预训练通常会比监督预训练为 GIE 视觉任务产生更合适的主干,而 ImageNet 1k 的自监督预训练通常更适合 GIE 视觉任务。比使用未标记的 Hyperkvasir 进行预训练更合适,除了结肠镜检查中的单眼深度估计之外,ViT Bs 更适合息肉分割和结肠镜检查中的单眼深度估计,ResNet50s 更适合息肉检测,并且两种架构在解剖标志中表现相似识别和病理结果表征。我们希望这项工作能够引起人们对 GIE 视觉任务预训练复杂性的关注,为这一发展提供比常规方法更合适的方法,并激发对该主题的进一步研究,以帮助推动这一发展。

AGSPNet: A framework for parcel-scale crop fine-grained semantic change detection from UAV high-resolution imagery with agricultural geographic scene constraints
Authors Shaochun Li, Yanjun Wang, Hengfan Cai, Lina Deng, Yunhao Lin
实时、准确地获取农作物种植细粒变化信息,对于农作物生长监测、产量预测和农业结构调整具有重要意义。针对现有语义变化检测SCD算法中可见光高分辨率无人机不同相位图像光谱混乱严重、大片复杂背景和椒盐噪声干扰等问题,以有效提取农作物和农作物的深层图像特征。满足农业实际工程应用的需求,设计并提出了农业地理场景和地块尺度约束的农作物SCD框架AGSPNet。 AGSPNet框架包含农业地理场景AGS划分模块、地块边缘提取模块和农作物SCD模块三部分。同时,我们制作并推出了专门用于农业监测的无人机图像SCD数据集CSCD,涵盖复杂地理场景中农作物的多种语义变化类型。我们在该数据集的两个测试区域进行了对比实验和精度评估,结果表明AGSPNet的crop SCD结果在数量和质量上始终优于其他深度学习SCD模型,评估指标为F1得分、kappa、OA 、mIoU 比次优方法平均分别获得 0.038、0.021、0.011 和 0.062 的改进。

YOLO-Former: YOLO Shakes Hand With ViT
Authors Javad Khoramdel, Ahmad Moori, Yasamin Borhani, Armin Ghanbarzadeh, Esmaeil Najafi
所提出的 YOLOFormer 方法无缝地集成了 Transformer 和 YOLOv4 的思想,创建了一个高度准确且高效的目标检测系统。该方法利用了 YOLOv4 的快速推理速度,并通过卷积注意力和 Transformer 模块的集成,结合了 Transformer 架构的优势。结果证明了该方法的有效性,在 Pascal VOC 数据集上的平均精度 mAP 为 85.76,同时保持了每秒 10.85 帧的高预测速度。

Eyes Wide Shut? Exploring the Visual Shortcomings of Multimodal LLMs
Authors Shengbang Tong, Zhuang Liu, Yuexiang Zhai, Yi Ma, Yann LeCun, Saining Xie
视觉对于语言来说是否足够好 多模态模型的最新进展主要源于大型语言模型法学硕士的强大推理能力。然而,视觉组件通常仅依赖于实例级对比语言图像预训练 CLIP 。我们的研究表明,近期多模态法学硕士 MLLM 的视觉能力仍然表现出系统性缺陷。为了理解这些错误的根源,我们探索了 CLIP 的视觉嵌入空间和仅视觉自监督学习之间的差距。我们识别出 CLIP 盲对图像,尽管它们有明显的视觉差异,但 CLIP 认为相似。通过这些对,我们构建了多模式视觉模式 MMVP 基准。 MMVP 揭示了包括 GPT 4V 在内的最先进系统在九种基本视觉模式中难以解决简单问题的领域,通常会提供不正确的答案和幻觉的解释。我们进一步评估了各种基于 CLIP 的视觉和语言模型,发现挑战 CLIP 模型的视觉模式与多模式法学硕士的问题之间存在显着的相关性。作为解决这些问题的初步努力,我们提出了一种混合特征 MoF 方法,证明将视觉自监督学习功能与 MLLM 集成可以显着增强其视觉基础能力。

Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications
Authors Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai
我们推出 Deformable Convolution v4 DCNv4,这是一种专为广泛的视觉应用而设计的高效且有效的算子。 DCNv4 通过两项关键增强解决了其前身 DCNv3 的局限性:1. 消除空间聚合中的 softmax 归一化,以增强其动态属性和表达能力;2. 优化内存访问,最大限度地减少冗余操作以提高速度。与 DCNv3 相比,这些改进使得收敛速度显着加快,处理速度也大幅提高,DCNv4 的转发速度达到了三倍以上。 DCNv4 在各种任务中展示了卓越的性能,包括图像分类、实例和语义分割,尤其是图像生成。当集成到潜在扩散模型中的 U Net 等生成模型中时,DCNv4 的性能优于其基线,强调了其增强生成模型的可能性。实际应用中,在InternImage模型中用DCNv4替换DCNv3创建FlashInternImage,无需进一步修改,速度提升高达80%,性能进一步提升。

TriNeRFLet: A Wavelet Based Multiscale Triplane NeRF Representation
Authors Rajaei Khatib, Raja Giryes
近年来,神经辐射场 NeRF 模型因其恢复复杂 3D 场景的能力而受到欢迎。继其成功之后,许多方法提出了不同的 NeRF 表示,以进一步提高运行时间和性能。 Triplane 就是这样的一个例子,其中 NeRF 使用三个 2D 特征平面来表示。这使得可以在此框架中轻松使用现有的 2D 神经网络,例如生成三个平面。尽管有其优势,但与 NeRF 解决方案相比,三平面表示在 3D 恢复质量方面落后。在这项工作中,我们提出了 TriNeRFLet,一种基于 2D 小波的 NeRF 多尺度三平面表示,它缩小了 3D 恢复性能差距,并且与当前最先进的方法具有竞争力。

Enhancing Multimodal Understanding with CLIP-Based Image-to-Text Transformation
Authors Chang Che, Qunwei Lin, Xinyu Zhao, Jiaxin Huang, Liqiang Yu
将输入图像转换为相应文本解释的过程是计算机视觉和自然语言处理领域中一项至关重要且复杂的工作。

FRED: Towards a Full Rotation-Equivariance in Aerial Image Object Detection
Authors Chanho Lee, Jinsu Son, Hyounguk Shon, Yunho Jeon, Junmo Kim
旋转等变性是定向物体检测中一个重要但具有挑战性的属性。虽然由于传统 CNN 的平移等方差,一般物体检测器自然地利用了对空间移动的鲁棒性,但实现旋转等方差仍然是一个难以实现的目标。当前的检测器部署各种对齐技术来导出旋转不变特征,但仍然依赖于高容量模型和具有所有可能旋转的大量数据增强。在本文中,我们介绍了一种完全旋转等变的面向对象检测器 FRED ,其从图像到边界框预测的整个过程都是严格等变的。具体来说,我们将不变的任务对象分类和等变的任务对象定位解耦,以实现端到端的等变。我们将边界框表示为一组旋转等变向量来实现旋转等变定位。此外,我们利用这些旋转等变向量作为可变形卷积中的偏移量,从而增强了空间适应的现有优势。与现有方法相比,利用完全旋转等方差,我们的 FRED 对图像级旋转表现出更高的鲁棒性。此外,我们通过实验表明 FRED 距离非轴对齐学习又近了一步。

UDEEP: Edge-based Computer Vision for In-Situ Underwater Crayfish and Plastic Detection
Authors Dennis Monari, Jack Larkin, Pedro Machado, Jordan J. Bird, Isibor Kennedy Ihianle, Salisu Wada Yahaya, Farhad Fassihi Tash, Md Mahmudul Hasan, Ahmad Lotfi
入侵信号小龙虾对生态系统产生有害影响。他们传播了真菌型小龙虾瘟疫病 Aphanomyces astaci,这种疾病对英国唯一的本土小龙虾品种白爪小龙虾来说是致命的。入侵信号小龙虾广泛挖洞,造成栖息地破坏、河岸侵蚀和水质不利变化,同时还与本地物种争夺资源,导致本地种群数量下降。此外,污染加剧了白爪小龙虾的脆弱性,英国某些县的白爪小龙虾数量减少了 90 多种,极易灭绝。为了保护水生生态系统,必须解决英国河流生态系统中入侵物种和废弃塑料带来的挑战。 UDEEP 平台可以通过对 Signal 小龙虾和塑料碎片进行动态分类,同时利用人工智能、物联网设备和边缘计算(即 NJN)的功能,在环境监测中发挥至关重要的作用。

A Stochastic Approach to Classification Error Estimates in Convolutional Neural Networks
Authors Jan Peleska, Felix Br ning, Mario Gleirscher, Wen ling Huang
本技术报告介绍了在安全关键应用中用于图像分类的训练有素的卷积神经网络 CNN 验证领域取得的研究成果。作为运行示例,我们使用了未来自动化等级为 GoA 4 的自动货运列车所需的障碍物检测功能。结果表明,像 GoA 4 货运列车这样的系统如今确实可以通过另外使用的新标准(如 ANSI UL 4600 和 ISO 21448)进行认证。符合长期存在的标准 EN 50128 和 EN 50129。此外,我们还对障碍物检测功能预期的系统级危险率进行了定量分析。结果表明,使用传感器感知器融合,融合检测系统可以满足被视为适用 SIL 3 的安全完整性级别可接受的可容忍危险率。对 CNN 模型进行数学分析,从而识别划分 CNN 图像输入空间的分类簇和等价类。这些簇和类用于引入一种新颖的统计测试方法,用于确定经过训练的 CNN 的残差概率和相关的置信上限。

Image Classifier Based Generative Method for Planar Antenna Design
Authors Yang Zhong, Weiping Dou, Andrew Cohen, Dia a Bisharat, Yuandong Tian, Jiang Zhu, Qing Huo Liu
为了将天线设计扩展到印刷电路板 PCB 上以供更多感兴趣的工程师使用,我们提出了一种简单的方法,可以使用一些基本组件对 PCB 天线进行建模。通过采取两个单独的步骤来确定其几何尺寸和位置,无需任何经验即可制作天线原型。与维度质量相关的随机抽样统计数据用于在候选维度中进行选择。引入了一种使用卷积神经网络 CNN 的新颖的基于图像的分类器,以进一步确定这些固定维度组件的位置。选择了可穿戴产品的两个示例来检查整个工作流程。

AAMDM: Accelerated Auto-regressive Motion Diffusion Model
Authors Tianyu Li, Calvin Qiao, Guanqiao Ren, KangKang Yin, Sehoon Ha
交互式运动合成对于在视频游戏和虚拟现实等娱乐应用中创建沉浸式体验至关重要。然而,生成高质量且上下文响应的动画仍然是一个挑战。游戏行业的传统技术可以制作高保真度的动画,但计算成本高且可扩展性差。经过训练的神经网络模型可以缓解内存和速度问题,但在生成不同的运动方面存在不足。扩散模型以低内存使用量提供多种运动合成,但需要昂贵的反向扩散过程。本文介绍了加速自回归运动扩散模型 AAMDM,这是一种新颖的运动合成框架,旨在同时实现质量、多样性和效率。 AAMDM 将去噪扩散 GAN 集成为快速生成模块,将自动回归扩散模型集成为抛光模块。此外,AAMDM 在较低维的嵌入空间而不是全维姿态空间中运行,这降低了训练复杂度并进一步提高了性能。通过全面的定量分析和视觉比较,我们表明 AAMDM 在运动质量、多样性和运行时效率方面优于现有方法。

DFU: scale-robust diffusion model for zero-shot super-resolution image generation
Authors Alex Havrilla, Kevin Rojas, Wenjing Liao, Molei Tao
扩散生成模型在生成具有固定分辨率的图像方面取得了显着的成功。然而,当无法获得这些分辨率的训练数据时,现有模型推广到不同分辨率的能力有限。利用算子学习技术,我们提出了一种新颖的深度学习架构,即 Dual FNO UNet DFU,它通过组合多种分辨率的空间和光谱信息来近似得分算子。 DFU 与基线的比较证明了其可扩展性 1 同时在多个分辨率上进行训练比在任何单一固定分辨率下进行训练提高了 FID 2 DFU 的泛化能力超出了其训练分辨率,允许使用同一模型在更高分辨率下进行连贯、高保真生成,即零样本超级分辨率图像生成 3 我们提出了一种微调策略,以进一步增强模型的零样本超分辨率图像生成能力,在 FFHQ 上最大训练分辨率的 1.66 倍下获得 11.3 的 FID,这是其他方法无法接近的

Redefining Recon: Bridging Gaps with UAVs, 360 degree Cameras, and Neural Radiance Fields
Authors Hartmut Surmann, Niklas Digakis, Jan Nicklas Kremer, Julien Meine, Max Schulte, Niklas Voigt
在灾难情况下的数字态势感知领域,准确的数字表示(如 3D 模型)发挥着不可或缺的作用。为了确保救援队的安全,通常会部署机器人平台来生成这些模型。在本文中,我们介绍了一种创新方法,该方法将小于 30 厘米、配备 360 度摄像头的紧凑型无人机的功能与神经辐射场 NeRF 的先进技术相结合。 NeRF 是一种专门的神经网络,可以使用 2D 图像推断出任何场景的 3D 表示,然后根据请求从各个角度进行合成。这种方法特别适合遭受严重破坏的城市环境,在地震后和严重火灾后,建筑物的结构完整性会受到损害,导致无法进入。

The possibility of making $\$138,000$ from shredded banknote pieces using computer vision
Authors Chung To Kong
每个国家都必须处理旧纸币。在香港金融管理局游客中心,游客可以购买装满碎钞票的镇纸纪念品。尽管撕碎的钞票很小,但通过计算机视觉,可以像拼图游戏一样重建整张钞票。每份镇纸纪念品售价100港元,据称内含相当于138张完整的1000港元纸币的碎纸币。理论上,利用计算机视觉可以追回138,000港元。

Dynamic Behaviour of Connectionist Speech Recognition with Strong Latency Constraints
Authors Giampiero Salvi
本文描述了连接主义技术在具有强延迟约束的语音识别中的使用。这些约束是通过将语音字符串输入到发音合成器中,从语音信号中实时导出合成面部的嘴唇运动的任务所施加的。特别注意分析在不同延迟条件下多层感知器学习的时间演化模型与维特比解码器施加的转换模型之间的相互作用。进行了两个实验,其中语言模型 LM 中的时间依赖性由参数控制。

Optimizing Feature Selection for Binary Classification with Noisy Labels: A Genetic Algorithm Approach
Authors Vandad Imani, Elaheh Moradi, Carlos Sevilla Salcedo, Vittorio Fortino, Jussi Tohka
嘈杂标签场景中的特征选择仍然是一个未被充分研究的主题。我们提出了一种基于遗传算法的新颖方法,即噪声感知多目标特征选择遗传算法 NMFS GA,用于在带有噪声标签的二元分类中选择最佳特征子集。 NMFS GA 提供了一个统一的框架来选择准确且可解释的特征子集。我们在带有标签噪声的合成数据集、富含噪声特征的乳腺癌数据集以及用于痴呆转换预测的现实世界 ADNI 数据集上评估 NMFS GA。

Fully Automated Tumor Segmentation for Brain MRI data using Multiplanner UNet
Authors Sumit Pandey, Satyasaran Changdar, Mathias Perslev, Erik B Dam
不同肿瘤区域的自动分割对于儿科脑肿瘤的准确诊断和治疗计划至关重要。本研究评估了 Multi Planner U Net MPUnet 方法在三个具有挑战性的数据集(儿科肿瘤挑战 PED、脑转移挑战 MET 和撒哈拉以南非洲成人胶质瘤 SSA)中分割不同肿瘤亚区域的功效。这些数据集代表了不同的场景和解剖变化,使其适合评估 MPUnet 模型的稳健性和泛化能力。通过利用多平面信息,MPUnet 架构旨在提高分割精度。我们的结果显示,在评估的挑战中,性能水平各不相同,肿瘤核心 TC 类表现出相对较高的分割精度。然而,在其他类别的分割中观察到变异性,例如水肿和增强肿瘤 ET 区域。

UAV-borne Mapping Algorithms for Canopy-Level and High-Speed Drone Applications
Authors Jincheng Zhang, Artur Wolek, Andrew R. Willis
本文对 UAV 无人机应用的最先进测绘算法进行了全面的回顾和分析,重点关注冠层和高速场景。本文对适用于无人机测绘的传感器技术进行了全面的探索,评估了它们提供满足快速无人机测绘要求的测量的能力。此外,该研究在模拟环境中进行了大量实验,以评估三种不同映射算法 Direct Sparse Odometry DSO、Stereo DSO SDSO 和 DSO Lite DSOL 的性能。这些实验深入研究了映射精度和映射速度,为了解每种算法的优点和局限性提供了宝贵的见解。结果凸显了这些算法在满足现代无人机应用需求方面的多功能性和缺点。这些发现有助于对无人机测绘动态的细致了解,强调其在复杂环境和高速场景中的适用性。

Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model
Authors Taehee Kim, Yeongjae Cho, Heejun Shin, Yohan Jo, Dongmyung Shin
视觉问答 VQA 是一项给定图像,并针对该图像提出一系列问题的任务。为了构建高效的VQA算法,需要大量的QA数据,这是非常昂贵的。基于模板生成合成问答对是一种获取数据的实用方法。然而,基于这些数据训练的 VQA 模型在复杂的人类书面问题上表现不佳。为了解决这个问题,我们提出了一种新方法,称为人类书面问题 QA 链 CoQAH。 CoQAH 利用大型语言模型和在合成数据上训练的 VQA 模型之间的一系列 QA 交互来推理并得出人类书面问题的逻辑答案。我们在两种类型的人类编写的 VQA 数据集(针对 3D 渲染和胸部 X 射线图像)上测试了 CoQAH 的有效性,发现它在两种类型的数据中都实现了最先进的准确性。

MedTransformer: Accurate AD Diagnosis for 3D MRI Images through 2D Vision Transformers
Authors Yifeng Wang, Ke Chen, Yihan Zhang, Haohan Wang
脑图像中 AD 的自动诊断正在成为支持精确、高效的诊断和治疗计划的临床重要技术。使用三维 CNN 在磁共振成像 MRI 中自动诊断 AD 已经做出了一些努力。然而,由于3D模型的复杂性,无论是在精度还是效率上,表现仍然不尽如人意。为了克服 3D 图像和 3D 模型的复杂性,在本研究中,我们的目标是使用 2D 视觉 Transformer 来解决这个问题。我们提出了一种基于 2D Transformer 的医学图像模型,具有各种 Transformer 注意编码器,通过将 3D 图像切割成多个 2D 切片来诊断 3D MRI 图像中的 AD。该模型由四个主要组件组成:跨三个维度的共享编码器、维度特定编码器、注意力跨越同一维度的图像,以及跨越三个维度的注意力。它用于获取不同维度轴向、冠状、矢状和多个切片的多个序列之间的注意力关系。我们还提出了形态增强,一种基于侵蚀和膨胀的方法,以增加 AD 和正常图像之间的结构差异。在本实验中,我们使用 ADNI、AIBL、MIRAID、OASIS 的多个数据集来展示我们模型的性能。我们提出的 MedTransformer 展示了诊断 AD 的强大能力。

Demystifying Variational Diffusion Models
Authors Fabio De Sousa Ribeiro, Ben Glocker
尽管扩散模型越来越受欢迎,但对于非平衡统计物理学的新手来说,深入了解模型类别仍然有些困难。考虑到这一点,我们使用定向图形建模和变分贝叶斯原理对扩散模型进行了更直接的介绍,这对普通读者提出了相对较少的先决条件。我们的阐述构成了全面的技术回顾,涵盖从深层潜变量模型等基本概念到基于连续时间扩散的建模的最新进展,强调了模型类之间的理论联系。我们尽可能提供在开创性著作中省略的额外数学见解,以帮助理解,同时避免引入新的符号。

Segmentation of Mediastinal Lymph Nodes in CT with Anatomical Priors
Authors Tejas Sudharshan Mathai, Bohan Liu, Ronald M. Summers
目的 胸部淋巴结由于各种病变(例如肺癌或肺炎)而有增大的趋势。临床医生定期测量淋巴结大小以监测疾病进展、确认转移性癌症并评估治疗反应。然而,LN 的形状和外观各不相同,因此识别 LN 变得很困难,因为 LN 位于大多数器官之外。方法 我们建议利用公共 TotalSegmentator 工具生成的 28 种不同结构(例如肺、气管等)的解剖先验来分割纵隔中的淋巴结。使用公共 NIH CT 淋巴结数据集中提供的 89 名患者的 CT 体积来训练三个 3D nnUNet 模型来分割 LN。使用包含 15 名训练分布之外的患者的公共 St. Olavs 数据集来评估分割性能。结果对于15名测试患者,3D级联nnUNet模型获得了最高的Dice评分,短轴直径geq 8mm的纵隔淋巴结分别为72.2±22.3,所有淋巴结分别为54.8±23.8。这些结果表明比在相同测试数据集上评估的当前方法提高了 10 个百分点。结论 据我们所知,我们是第一个利用 28 个不同的解剖学先验来分割纵隔淋巴结的人,并且我们的工作可以扩展到身体的其他淋巴结区域。

Leveraging Frequency Domain Learning in 3D Vessel Segmentation
Authors Xinyuan Wang, Chengwei Pan, Hongming Dai, Gangming Zhao, Jinpeng Li, Xiao Zhang, Yizhou Yu
冠状动脉微血管疾病对人类健康构成重大风险。利用计算机辅助分析和诊断系统,医疗专业人员可以在疾病进展的早期进行干预,其中 3D 血管分割是一个关键组成部分。然而,传统的 U Net 架构往往会产生不连贯且不精确的分割结果,特别是对于小型血管结构。虽然具有注意力机制的模型(例如 Transformer 和大型卷积核)表现出卓越的性能,但它们在训练和推理过程中的大量计算需求导致时间复杂度增加。在本研究中,我们利用傅立叶域学习作为 3D 分层分割模型中多尺度卷积核的替代品,这可以减少计算开销,同时保留网络内的全局感受野。此外,设计了零参数频域融合方法来改善U Net架构中的跳跃连接。

Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks
Authors Jing Wu, Mehrtash Harandi
机器取消学习已成为消除训练模型中数据影响的关键任务。它遵守最新的数据监管标准,并增强机器学习应用程序的隐私和安全性。大多数现有的机器取消学习方法都表现良好,但是,它们通常需要访问全部剩余数据,这在某些情况下可能不可行。在这项工作中,我们提出了一种新的机器反学习方法 Scissorhands,该方法仅使用训练数据的子集即可有效运行。最初,剪刀手通过连接敏感性识别给定模型中相对于遗忘数据最相关的参数。该过程涉及重新初始化这些参数中最具影响力的前 k%,从而产生用于消除遗忘数据的影响的修剪模型。随后,Scissorhands 通过最小最大优化过程重新训练修剪后的模型,寻找保留剩余数据信息的参数,同时丢弃与遗忘数据相关的信息。

Prediction of Cellular Identities from Trajectory and Cell Fate Information
Authors Baiyang Dai, Jiamin Yang, Hari Shroff, Patrick La Riviere
确定成像序列中的细胞身份是一项重要但具有挑战性的任务。细胞识别的传统方法是通过细胞跟踪,该方法复杂且耗时。在这项研究中,我们提出了一种利用机器学习在早期秀丽隐杆线虫胚胎发生过程中进行细胞识别的创新方法。我们采用随机森林、MLP 和 LSTM 模型,并在胚胎发生前 4 小时的 3D 延时共聚焦数据集上测试了细胞分类的准确性。通过利用单个细胞的少量时空特征(包括细胞轨迹和细胞命运信息),即使数据有限,我们的模型也能实现超过 90 的准确度。我们还确定最重要的特征贡献,并可以在生物知识的背景下解释这些特征。

Deep Learning model predicts the c-Kit-11 mutational status of canine cutaneous mast cell tumors by HE stained histological slides
Authors Chlo Puget, Jonathan Ganz, Julian Ostermaier, Thomas Konrad, Eda Parlak, Christof Albert Bertram, Matti Kiupel, Katharina Breininger, Marc Aubreville, Robert Klopfleisch
目前在犬肥大细胞肿瘤的活检中通过组织病理学评估许多预后因素,以评估临床行为。此外,通常对 c Kit 外显子 11 突变状态进行 PCR 分析,以评估酪氨酸激酶抑制剂治疗的潜在成功率。该项目旨在训练深度学习模型 DLM,仅根据形态学来识别 MCT 的 c Kit 11 突变状态,无需额外的分子分析。 195 个突变肿瘤和 173 个非突变肿瘤的 HE 载玻片在两个不同的实验室连续染色,并用三个不同的载玻片扫描仪进行扫描。这导致整个幻灯片图像的六个不同数据集染色扫描仪变化。 DLM 使用单一和混合数据集进行训练,并在扫描仪和染色域转换下评估其性能。 DLM 根据其 c Kit 11 突变状态对 HE 载玻片进行了正确分类,平均在 87 个病例中找到最适合的染色扫描仪变体。当训练和测试数据集的染色扫描仪组合不同时,可以观察到相关的性能下降。多变体数据集提高了平均准确度,但没有达到在相同染色扫描仪变体上训练和测试的算法的最大准确度。综上所述,DLM辅助MCT形态学检查可以高精度预测MCT c Kit外显子11突变状态。然而,扫描仪或染色协议的改变会阻碍识别性能。

D-STGCNT: A Dense Spatio-Temporal Graph Conv-GRU Network based on transformer for assessment of patient physical rehabilitation
Authors Youssef Mourchid, Rim Slama
本文解决了自动评估在没有临床医生监督的情况下进行锻炼的患者的身体康复锻炼的挑战。目标是提供质量分数以确保正确的性能并达到预期的结果。为了实现这一目标,引入了一种新的基于图的模型,即带有 Transformer 的密集时空图卷积 GRU 网络。该模型结合了 STGCN 的修改版本和变压器架构,可有效处理时空数据。关键思想是将骨骼数据考虑为​​图形,尊重其非线性结构,并检测在每个康复练习中发挥主要作用的关节。密集连接和 GRU 机制用于快速处理大型 3D 骨架输入并有效地建模时间动态。 Transformer 编码器的注意力机制侧重于输入序列的相关部分,这使其对于评估康复练习非常有用。我们在 KIMORE 和 UI PRMD 数据集上提出的方法的评估凸显了其潜力,在准确性和计算时间方面超越了最先进的方法。这使得康复练习的学习和评估更快、更准确。

Artificial Intelligence for Digital and Computational Pathology
Authors Andrew H. Song, Guillaume Jaume, Drew F.K. Williamson, Ming Y. Lu, Anurag Vaidya, Tiffany R. Miller, Faisal Mahmood
组织切片数字化的进步以及包括深度学习在内的人工智能的快速进步推动了计算病理学领域的发展。该领域在自动化临床诊断、预测患者预后和治疗反应以及从组织图像中发现新的形态生物标志物方面具有巨大潜力。其中一些基于人工智能的系统现已获得批准用于辅助临床诊断,但是,其广泛临床采用和集成作为研究工具仍然存在技术障碍。本综述巩固了计算病理学在整个幻灯片图像中预测临床终点的最新方法学进展,并强调了这些进展如何实现临床实践的自动化和新生物标志物的发现。

Minuet: Accelerating 3D Sparse Convolutions on GPUs
Authors Jiacheng Yang, Christina Giannoula, Jun Wu, Mostafa Elhoushi, James Gleeson, Gennady Pekhimenko
稀疏卷积 SC 广泛用于处理本质上稀疏的 3D 点云。与密集卷积不同,SC 通过仅允许输出到特定位置来保留输入点云的稀疏性。为了有效地计算SC,现有的SC引擎首先使用哈希表来构建内核映射,该内核映射存储要执行的映射步骤所需的通用矩阵乘法GEMM操作,然后使用Gather GEMM Scatter过程来执行这些GEMM操作GMaS步骤。在这项工作中,我们分析了现有最先进 SC 引擎的缺点,并提出了 Minuet,一种专为现代 GPU 量身定制的新型内存高效 SC 引擎。 Minuet 建议用一种新颖的分段排序双遍历二分搜索算法替换 Map 步骤中使用的哈希表,该算法高度利用 GPU 的片上内存层次结构,ii 使用轻量级方案来自动调整 Gather 和 Scatter 操作中的图块大小iii 采用填充高效的 GEMM 分组方法,减少内存填充和内核启动开销。我们的评估表明,对于端到端点云网络执行,Minuet 的性能明显优于之前的 SC 引擎,平均性能提高 1.74 倍至 2.22 倍。我们新颖的分段排序双遍历二分搜索算法在 Map 步骤中比之前的 SC 引擎平均加速 15.8 倍,最高可达 26.8 倍。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(计算机视觉,视觉,Papers,人工智能,计算机视觉,CV,Computer,vision,多模态,3D,重建)