【AI视野·今日CV 计算机视觉论文速览 第267期】Fri, 13 Oct 2023

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 13 Oct 2023
Totally 106 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第267期】Fri, 13 Oct 2023_第1张图片

Daily Computer Vision Papers

Octopus: Embodied Vision-Language Programmer from Environmental Feedback
Authors Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Chencheng Jiang, Haoran Tan, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, Ziwei Liu
大型视觉语言模型 VLM 在多模态感知和推理方面取得了实质性进展。此外,当无缝集成到实体代理中时,它标志着朝着创建能够精确制定计划和执行命令的自主和上下文感知系统迈出的关键一步。在本文中,我们介绍了 Octopus,这是一种新颖的 VLM,旨在熟练地破译代理的视觉和文本任务目标,并制定复杂的动作序列并生成可执行代码。我们的设计使代理能够熟练地处理各种任务,从模拟器中的日常琐事到复杂视频游戏中的复杂交互。 Octopus 通过利用 GPT 4 进行训练,以控制探索性代理在我们名为 OctoVerse 的实验环境中生成训练数据,即动作蓝图和相应的可执行代码。我们还收集反馈,以允许使用环境反馈 RLEF 增强强化学习的训练方案。通过一系列实验,我们阐明了 Octopus 的功能并呈现了令人信服的结果,并且所提出的 RLEF 结果证明可以改进代理的决策。

Is Generalized Dynamic Novel View Synthesis from Monocular Videos Possible Today?
Authors Xiaoming Zhao, Alex Colburn, Fangchang Ma, Miguel Angel Bautista, Joshua M. Susskind, Alexander G. Schwing
从新的视角渲染单眼视频中观察到的场景是一个具有挑战性的问题。对于静态场景,社区研究了场景特定优化技术(对每个测试场景进行优化)和通用技术(仅在测试场景上运行深度网络前向传递)。相反,对于动态场景,存在特定于场景的优化技术,但是,据我们所知,目前还没有从给定的单目视频合成动态新颖视图的通用方法。为了回答今天单目视频的广义动态新颖视图合成是否可能,我们基于现有技术建立了一个分析框架,并致力于广义方法。我们发现无需场景特定外观优化的伪广义过程是可能的,但需要几何和时间一致的深度估计。

PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm
Authors Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang
与众多 NLP 和 2D 计算机视觉基础模型相比,学习鲁棒且高度泛化的 3D 基础模型面临着更大的挑战。这主要是由于固有的数据可变性和下游任务的多样性。在本文中,我们介绍了一个全面的 3D 预训练框架,旨在促进高效 3D 表示的获取,从而建立 3D 基础模型的途径。受信息丰富的 3D 特征应该能够编码可用于渲染逼真图像的丰富几何和外观线索这一事实的启发,我们提出了一种新颖的通用范例,通过可微分神经渲染来学习点云表示,作为 3D 和 3D 之间的桥梁。 2D 世界。我们通过将渲染图像与真实图像进行比较,在设计的体积神经渲染器中训练点云编码器。值得注意的是,我们的方法展示了学习的 3D 编码器与各种下游任务的无缝集成。这些任务不仅涵盖 3D 检测和分割等高级别挑战,还涵盖 3D 重建和图像合成等低级别目标,涵盖室内和室外场景。此外,我们还说明了使用所提出的通用方法预训练 2D 主干网的能力,大大超过了传统的预训练方法。 sexyname 首次在 11 项室内和室外基准测试中达到最先进的性能。各种设置中的一致改进表明所提出方法的有效性。

Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes
Authors Haotong Lin, Sida Peng, Zhen Xu, Tao Xie, Xingyi He, Hujun Bao, Xiaowei Zhou
本文旨在解决多视图视频动态视图合成的挑战。关键的观察结果是,虽然以前的基于网格的方法提供了一致的渲染,但它们在捕获复杂动态场景的外观细节方面存在不足,而在该领域,基于多视图图像的渲染方法表现出相反的属性。为了结合两个世界的优点,我们引入了 Im4D,这是一种混合场景表示,由基于网格的几何表示和基于多视图图像的外观表示组成。具体来说,动态几何被编码为由时空特征平面和小型 MLP 网络组成的 4D 密度函数,对场景结构进行全局建模并促进渲染一致性。我们通过原始的多视图视频和一个学习从图像特征预测 3D 点的颜色的网络来表示场景外观,而不是完全用网络来记忆详细的外观,从而自然地使网络的学习变得更容易。我们的方法在五个动态视图合成数据集上进行了评估,包括 DyNeRF、ZJU MoCap、NHR、DNA Rendering 和 ENeRF Outdoor 数据集。

Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video
Authors Shashanka Venkataramanan, Mamshad Nayeem Rizve, Jo o Carreira, Yuki M. Asano, Yannis Avrithis
自监督学习释放了将预训练扩展到数十亿图像的潜力,因为注释是不必要的。但是,我们是否充分利用了数据,才能更加经济?在这项工作中,我们试图通过做出两项贡献来回答这个问题。首先,我们研究第一人称视频并引入步行游览数据集。这些视频分辨率高,时长数小时,在一次不间断的拍摄中拍摄,描绘了大量具有自然场景过渡的物体和动作。

OmniControl: Control Any Joint at Any Time for Human Motion Generation
Authors Yiming Xie, Varun Jampani, Lei Zhong, Deqing Sun, Huaizu Jiang
我们提出了一种名为 OmniControl 的新颖方法,用于将灵活的空间控制信号合并到基于扩散过程的文本条件人体运动生成模型中。与之前只能控制骨盆轨迹的方法不同,OmniControl 可以仅用一种模型在不同时间在不同关节上整合灵活的空间控制信号。具体来说,我们提出了分析空间引导,以确保生成的运动能够严格符合输入控制信号。同时,引入真实感引导来细化所有关节,以产生更连贯的运动。空间引导和真实感引导都是必不可少的,并且它们对于平衡控制精度和运动真实性具有高度互补性。通过将它们组合起来,OmniControl 生成逼真、连贯且符合空间约束的运动。

HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion
Authors Xian Liu, Jian Ren, Aliaksandr Siarohin, Ivan Skorokhodov, Yanyu Li, Dahua Lin, Xihui Liu, Ziwei Liu, Sergey Tulyakov
尽管大规模文本到图像模型取得了重大进展,但实现超逼真的人类图像生成仍然是一项理想但尚未解决的任务。 Stable Diffusion 和 DALL E 2 等现有模型往往会生成部分不连贯或姿势不自然的人体图像。为了应对这些挑战,我们的主要见解是,人类图像本质上具有多种粒度的结构,从粗粒度的身体骨骼到细粒度的空间几何。因此,在一个模型中捕获显式外观和潜在结构之间的这种相关性对于生成连贯且自然的人类图像至关重要。为此,我们提出了一个统一的框架,HyperHuman,它可以在野外生成高度真实感和多样化布局的人类图像。具体来说,1我们首先构建一个以人类为中心的大规模数据集,名为 HumanVerse,它由 3.4 亿张图像组成,具有人体姿势、深度和表面法线等全面注释。 2 接下来,我们提出了一种潜在结构扩散模型,该模型可同时对深度和表面法线以及合成的 RGB 图像进行去噪。我们的模型在统一网络中强制执行图像外观、空间关系和几何形状的联合学习,其中模型中的每个分支在结构意识和纹理丰富性方面相互补充。 3 最后,为了进一步提高视觉质量,我们提出了一种结构引导细化器来组合预测条件,以更详细地生成更高分辨率。大量的实验表明,我们的框架具有最先进的性能,可以在不同的场景下生成超逼真的人类图像。

Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models
Authors Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge
视觉语言模型 VLM 开发的最新进展在识别视觉语义内容方面取得了显着的成功,包括令人印象深刻的组合图像理解实例。在这里,我们介绍了 textit 视觉数据类型识别的新任务,这是一种基本的感知技能,对数据管理具有影响,例如从大型数据集中去除噪声数据、领域特定检索和自主视觉,例如区分不断变化的天气条件和相机镜头染色。我们开发了两个数据集,其中包含在 27 种视觉文本数据类型的不同集合中更改的动物图像,涵盖四大类。对 39 个 VLM(参数范围从 100M 到 80B)进行了广泛的零样本评估,显示了微妙的性能状况。虽然 VLM 相当擅长识别某些风格的 textit 数据类型(例如卡通和草图),但它们很难处理由图像旋转或附加噪声等基本操作产生的更简单的 textit 数据类型。我们的研究结果表明,对于像 CLIP 这样经过对比训练的模型,仅模型缩放就可以产生边际增益,而对于像 OpenFlamingo 这样的最大的自动回归训练的 VLM 来说,性能显着下降。这一发现指出了当前前沿 VLM 的盲点,它们擅长识别语义内容,但无法通过缩放来理解视觉文本数据类型。通过分析这些模型的预训练分布并在微调期间将 textit 数据类型信息合并到标题中,我们实现了性能的显着提高。通过探索这个以前未知的任务,我们的目标是为进一步推进 VLM 奠定基础,使其具备可视化数据类型理解能力。

Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation
Authors Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung Ching Lin, Zicheng Liu, Lijuan Wang
我们引入 Idea to Image,这是一个能够通过 GPT 4V sion 进行多模式迭代自我完善的系统,用于自动图像设计和生成。人类可以通过迭代探索快速识别不同文本到图像 T2I 模型的特征。这使他们能够有效地将高水平的生成想法转化为有效的 T2I 提示,从而生成良好的图像。我们研究基于大型多模态模型 LMM 的系统是否可以开发类似的多模态自细化能力,从而能够通过自细化尝试探索未知模型或环境。 Idea2Img 循环生成修改后的 T2I 提示来合成草稿图像,并为提示修改提供方向反馈,这两者都取决于其对探测的 T2I 模型特征的记忆。迭代的自我完善为 Idea2Img 带来了优于普通 T2I 模型的各种优势。值得注意的是,Idea2Img 可以通过交错的图像文本序列处理输入想法,通过设计指令遵循想法,并生成具有更好语义和视觉质量的图像。

Image2PCI -- A Multitask Learning Framework for Estimating Pavement Condition Indices Directly from Images
Authors Neema Jakisa Owor, Hang Du, Abdulateef Daud, Armstrong Aboah, Yaw Adu Gyamfi
路面状况指数 PCI 是一种广泛使用的指标,用于根据路面检测到的病害类型、范围和严重程度来评估路面性能。近年来,利用深度学习方法实现 PCI 估计过程自动化方面取得了重大进展。然而,当前的方法依赖于至少两个单独的模型来估计 PCI 值,一个模型专门用于确定类型和范围,另一个模型用于估计其严重程度。这种方法带来了一些挑战,包括复杂性、高计算资源需求以及需要仔细考虑和解决的维护负担。为了克服这些挑战,当前的研究开发了一个统一的多任务模型,可以直接从自上而下的路面图像预测 PCI。所提出的架构是一种多任务模型,由一个用于特征提取的编码器和四个用于处理特定任务的解码器组成,两个检测头、一个分割头和一个 PCI 估计头。通过多任务处理,我们能够从检测和分割头中提取特征,以便直接从图像中自动估计 PCI。该模型在我们的基准测试和开放式路面遇险数据集上表现非常好,该数据集首次针对多任务学习进行了注释。

XAI Benchmark for Visual Explanation
Authors Yifei Zhang, Siyi Gu, James Song, Bo Pan, Liang Zhao
深度学习算法的兴起带来了计算机视觉任务的重大进步,但其黑盒性质引起了人们对可解释性的担忧。可解释的人工智能 XAI 已成为一个关键的研究领域,旨在打开这个黑匣子,并阐明人工智能模型的决策过程。视觉解释作为可解释人工智能 XAI 的子集,通过突出显示输入图像中的影响区域,为处理视觉数据的 AI 模型的决策过程提供直观的见解。尽管对视觉解释进行了广泛的研究,但大多数评估都是以模型为中心的,因为在图像数据的背景下,具有真实解释的相应现实世界数据集的可用性很少。为了弥补这一差距,我们引入了 XAI 基准,其中包含来自不同主题的数据集集合,为图像提供类标签和相应的解释注释。我们处理了来自不同领域的数据,以与我们统一的视觉解释框架保持一致。我们引入了一个全面的视觉解释管道,它集成了数据加载、预处理、实验设置和模型评估过程。这种结构使研究人员能够对各种视觉解释技术进行公平的比较。此外,我们还对 10 多种视觉解释评估方法进行了全面回顾,以帮助研究人员有效利用我们的数据集集合。为了进一步评估现有视觉解释方法的性能,我们使用各种以模型为中心和以地面实况为中心的评估指标对选定的数据集进行实验。我们预计这个基准可以促进视觉解释模型的进步。

Animating Street View
Authors Mengyi Shan, Brian Curless, Ira Kemelmacher Shlizerman, Steve Seitz
我们提出了一个系统,通过在街景图像中填充自然行为、动画的行人和车辆,自动将街景图像变得栩栩如生。我们的方法是从输入图像中删除现有的人和车辆,插入具有适当比例、角度、运动和外观的移动对象,规划路径和交通行为,以及使用合理的遮挡和阴影效果渲染场景。该系统通过重建静态图像街道场景、模拟人群行为以及使用一致的照明、可见性、遮挡和阴影进行渲染来实现这些目标。

UniPose: Detecting Any Keypoints
Authors Jie Yang, Ailing Zeng, Ruimao Zhang, Lei Zhang
这项工作提出了一个名为 UniPose 的统一框架,通过视觉或文本提示来检测任何铰接的关键点,例如人类和动物、刚性和柔软物体,以实现细粒度的视觉理解和操作。 Keypoint 是任何对象(尤其是铰接对象)的结构感知、像素级和紧凑表示。现有的细粒度提示任务主要集中于对象实例检测和分割,但往往无法识别图像和实例的细粒度和结构化信息,例如眼睛、腿、爪子等。同时,基于提示的关键点检测仍在探索中。为了弥补这一差距,我们首次尝试开发一种基于端到端提示的关键点检测框架(称为 UniPose)来检测任何对象的关键点。由于关键点检测任务在该框架中是统一的,因此我们可以利用 13 个关键点检测数据集(包含 1,237 个类别的 338 个关键点,超过 40 万个实例)来训练通用的关键点检测模型。由于基于跨模态对比学习优化目标的文本和视觉提示的相互增强,UniPose 可以有效地将文本与关键点、图像与关键点对齐。我们的实验结果表明,UniPose 在图像风格、类别和姿势方面具有强大的细粒度定位和泛化能力。

GaussianDreamer: Fast Generation from Text to 3D Gaussian Splatting with Point Cloud Priors
Authors Taoran Yi, Jiemin Fang, Guanjun Wu, Lingxi Xie, Xiaopeng Zhang, Wenyu Liu, Qi Tian, Xinggang Wang
最近,根据文本提示生成 3D 资产已显示出令人印象深刻的结果。 2D 和 3D 扩散模型都可以根据提示生成像样的 3D 对象。 3D 扩散模型具有良好的 3D 一致性,但其质量和泛化能力受到限制,因为可训练的 3D 数据昂贵且难以获得。 2D扩散模型具有较强的泛化能力和精细生成能力,但3D一致性难以保证。本文试图通过最近明确且高效的 3D 高斯分布表示来桥接两种类型扩散模型的力量。提出了一种名为 name 的快速 3D 生成框架,其中 3D 扩散模型为初始化提供点云先验,2D 扩散模型丰富了几何形状和外观。引入噪声点生长和颜色扰动操作来增强初始化高斯。我们的名字可以在一个 GPU 上 25 分钟内生成一个高质量的 3D 实例,比以前的方法快得多,同时生成的实例可以直接实时渲染。

4D Gaussian Splatting for Real-Time Dynamic Scene Rendering
Authors Guanjun Wu, Taoran Yi, Jiemin Fang, Lingxi Xie, Xiaopeng Zhang, Wei Wei, Wenyu Liu, Qi Tian, Xinggang Wang
表示和渲染动态场景一直是一项重要但具有挑战性的任务。特别是,要准确地模拟复杂的运动,通常很难保持高效率。我们引入了4D Gaussian Splatting 4D GS来实现实时动态场景渲染,同时还享受高训练和存储效率。构建有效的变形场来模拟高斯运动和形状变形。不同的相邻高斯通过 HexPlane 连接,以产生更准确的位置和形状变形。我们的 4D GS 方法可在 RTX 3090 GPU 上以 800 × 800 分辨率实现高分辨率、70 FPS 的实时渲染,同时保持与之前最先进方法相当或更高的质量。

WinSyn: A High Resolution Testbed for Synthetic Data
Authors Tom Kelly, John Femiani, Peter Wonka
我们展示了 WinSyn,这是一个由高分辨率照片和 3D 模型渲染组成的数据集,作为合成到真实研究的测试平台。该数据集包含 75,739 张在全球范围内拍摄的建筑窗户高分辨率照片,包括传统和现代设计。其中包括 89,318 个裁剪后的窗口子图像,其中 9,002 个带有语义标记。此外,我们提出了我们的领域匹配的真实感程序模型,该模型可以对各种参数分布和工程方法进行实验。我们的程序模型提供了包含 21,290 张合成图像的第二个相应数据集。这个联合开发的数据集旨在促进合成到真实学习和合成数据生成领域的研究。 WinSyn 允许对合成数据难以与现实世界数据竞争的因素进行实验。我们使用合成模型进行消融,以识别与标记任务中的准确性相关的显着渲染、材料和几何因素。我们选择窗户作为基准,因为它们在设计中表现出很大的几何形状和材料可变性,这使得它们成为研究受限环境中合成数据生成的理想选择。

MotionDirector: Motion Customization of Text-to-Video Diffusion Models
Authors Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jiawei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou
大规模预训练扩散模型在不同的视频生成中表现出了卓越的能力。给定一组具有相同运动概念的视频剪辑,运动定制的任务是将现有文本适应视频扩散模型,以生成具有该运动的视频。例如,生成汽车在特定摄像机运动下按规定方式移动的视频来制作电影,或者展示熊如何举重的视频来激发创作者的灵感。已经开发了适应方法来定制主题或风格等外观,但尚未针对运动进行探索。扩展运动定制的主流自适应方法非常简单,包括完整的模型调整、附加层的参数高效调整和低秩自适应 LoRA。然而,通过这些方法学习的运动概念通常与训练视频中的有限外观相结合,使得很难将定制的运动推广到其他外观。为了克服这一挑战,我们提出了 MotionDirector,它采用双路径 LoRA 架构来解耦外观和运动的学习。此外,我们设计了一种新颖的外观去偏时间损失,以减轻外观对时间训练目标的影响。实验结果表明,所提出的方法可以为定制动作生成不同外观的视频。我们的方法还支持各种下游应用,例如将不同视频分别与其外观和运动混合,以及使用自定义运动对单个图像进行动画处理。

Proving the Potential of Skeleton Based Action Recognition to Automate the Analysis of Manual Processes
Authors Marlin Berger, Frederik Cloppenburg, Jens Eufinger, Thomas Gries
在纺织和电子等制造领域,手工流程是生产的基本组成部分。过程的分析和监控对于高效的生产设计是必要的。分析手动流程的传统方法复杂、昂贵且不灵活。与方法时间测量 MTM 等现有方法相比,机器学习 ML 方法具有更高的灵活性、自给自足的永久使用、更低的成本。在这项工作中,基于视频流,检测手动装配过程中的当前运动类别。根据当前动议的信息,可以轻松导出关键绩效指标 KPI。采用基于骨架的动作识别方法,因为该领域最近在机器视觉任务中取得了重大成功。对于手动装配中基于骨架的动作识别,没有找到足够的前期工作。因此,开发了机器学习管道,以便能够对不同的预处理方法和神经网络进行广泛的研究。找到了合适的泛化方法,证明了机器学习增强手动流程分析的潜力。

Debias the Training of Diffusion Models
Authors Hu Yu, Li Shen, Jie Huang, Man Zhou, Hongsheng Li, Feng Zhao
扩散模型通过简单的去噪分数匹配损失优化变分下界,展示了令人信服的生成质量。在本文中,我们提供了理论证据,证明在扩散模型中使用恒定损失权重策略的普遍做法会导致训练阶段的估计出现偏差。简单地优化去噪网络来预测具有恒定权重的高斯噪声可能会阻碍对原始图像的精确估计。为了解决这个问题,我们提出了一种基于理论上无偏见原则的优雅而有效的加权策略。此外,我们还从其存在、影响和原因等角度,对恒定权重损失所带来的固有偏差问题进行了全面、系统的探索。这些分析有望增进我们的理解并揭开扩散模型内部运作的神秘面纱。

Assessing of Soil Erosion Risk Through Geoinformation Sciences and Remote Sensing -- A Review
Authors Lachezar Filchev, Vasil Kolev
在过去的几十年里,世界范围内对广泛侵蚀现象的显着表现进行了研究。全球保护界在发展中国家的地方、区域和大陆层面发起了保护土壤资源的运动,不仅是为了阻止或减轻人类对自然的影响,也是为了改善农村地区的生活,引入新的土壤耕作方法。在通过联合国可持续发展目标并发起土地退化零增长等多项世界倡议后,世界开始认识到生物圈赖以生存的土壤资源的重要性。本章的主要目标是回顾不同类型和结构的侵蚀模型及其应用。使用地理信息系统 GIS 空间分析功能的多种方法正在用于土壤侵蚀风险评估,例如在全球和美国运行的通用土壤流失方程 USLE、修订的通用土壤流失方程 RUSLE 以及 MESALES 模型。目前的工作正在讨论这些模型和更多的模型,以及更多用于评估土壤侵蚀风险的实验模型和方法,例如人工智能、机器和深度学习等。在这项工作的最后,我们提出了土壤侵蚀未来发展的展望

Revisiting Data Augmentation for Rotational Invariance in Convolutional Neural Networks
Authors Facundo Manuel Quiroga, Franco Ronchetti, Laura Lanzarini, Aurelio Fernandez Bariviera
卷积神经网络 CNN 在各种计算机视觉任务中提供最先进的性能。其中许多任务需要仿射不变性的不同子类型、缩放、旋转、平移到图像变换。卷积层在设计上是平移等变的,但其基本形式缺乏不变性。在这项工作中,我们研究如何最好地将旋转不变性纳入 CNN 中以进行图像分类。我们的实验表明,仅使用数据增强训练的网络几乎可以对旋转图像进行分类,并且在正常的未旋转情况下,这种表示能力的增加只会以训练时间为代价。我们还将数据增强与两种用于实现旋转不变性或等变性的改进 CNN 模型(空间变换网络和组等变 CNN)进行了比较,发现这些专门方法没有显着提高准确性。

"SegLoc": Study on Novel Visual Self-supervised Learning Scheme (Segment Localization) Tailored for Dense Prediction Tasks of Security Inspection X-ray Images
Authors Shervin Halat, Mohammad Rahmati, Ehsan Nazerfard
最近,人工智能的显着进步归功于自我监督学习方案的集成。尽管在 NLP 领域取得了令人瞩目的成就,但 SSL 在计算机视觉领域却相对未能走上正轨。最近,对比学习在现有 SSL 模型之上的集成在计算机视觉领域取得了长足的进步,视觉 SSL 模型的性能优于其监督模型。然而,这些改进大多数仅限于分类任务,而且很少有工作致力于在计算机视觉的现实场景中评估 SSL 模型,而大多数工作都以包含类明智肖像图像的数据集为中心,最值得注意的是,图像网。因此,在这项工作中,我们考虑了安全检查 X 射线图像中语义分割的密集预测任务,以评估我们提出的模型分割定位。基于实例本地化模型,我们的模型 SegLoc 成功解决了对比学习最具挑战性的缺点之一,即查询嵌入的假阴性对。为此,与基线模型 InsLoc 相比,我们的预训练数据集是通过裁剪、转换然后将可用标记数据集(前景)中已标记的片段粘贴到未标记数据集(背景)的实例上来合成的。在我们的例子中,PIDray 和 SIXray 数据集分别被视为标记和未标记数据集。此外,我们通过在 MoCo v2 中实现每个类一个队列的想法来充分利用标签,从而从内存库中相应的队列中提取与每个查询相对应的负对。

Visual Attention-Prompted Prediction and Learning
Authors Yifei Zhang, Siyi Gu, Bo Pan, Guangji Bai, Xiaofeng Yang, Liang Zhao
解释注意力引导学习是一种通过在训练阶段融入人类理解来增强模型预测能力的方法。虽然注意力引导学习已显示出有希望的结果,但它通常涉及耗时且计算成本高昂的模型再训练。为了解决这个问题,我们引入了注意力提示预测技术,该技术可以在注意力提示的指导下进行直接预测,而不需要模型重新训练。然而,这种方法提出了一些挑战,包括 1 如何将视觉注意提示纳入模型的决策过程,并在没有提示的情况下利用它进行未来的预测以及 2 如何处理视觉注意提示中的不完整信息为了应对这些挑战,我们提出了一种称为视觉注意提示预测和学习的新颖框架,它将视觉注意提示无缝集成到模型的决策过程中,并适应有或没有注意提示的图像进行预测。为了解决视觉注意提示的不完整信息,我们引入了一种基于扰动的注意图修改方法。此外,我们提出了一种基于优化的掩模聚合方法,具有新的权重学习函数,用于注意图修改过程中的自适应扰动注释聚合。我们的整体框架旨在以注意力提示引导的多任务方式进行学习,以增强未来的预测,即使对于没有注意力提示的样本也是如此,并以交替方式进行训练以实现更好的收敛。

Hyp-UML: Hyperbolic Image Retrieval with Uncertainty-aware Metric Learning
Authors Shiyang Yan, Zongxuan Liu, Lin Xu
度量学习在训练图像检索和分类中起着至关重要的作用。它也是表示学习中的关键算法,例如用于特征学习及其在度量空间中的对齐。与大多数先前开发的模型中的传统欧几里得嵌入相比,双曲嵌入最近得到了发展,并且可以更有效地表示分层数据结构。其次,不确定性估计测量是人工智能领域的一个长期挑战。成功的不确定性估计可以提高机器学习模型的性能、稳健性和安全性。在双曲空间中,不确定性测量至少具有同等(甚至更重要)的重要性。在本文中,我们开发了一种双曲图像嵌入,具有用于图像检索的不确定性感知度量学习。我们将我们的方法称为 Hyp UML 双曲不确定性感知度量学习。我们的贡献有三重:我们提出了一种基于双曲空间的图像嵌入算法,以其相应的不确定性值,我们提出了两种类型的不确定性感知度量学习,分别用于流行的对比学习和传统的基于边缘的度量学习。我们进行了广泛的实验验证,以证明所提出的算法可以在相关方法中实现最先进的结果。

MeanAP-Guided Reinforced Active Learning for Object Detection
Authors Zhixuan Liang, Xingyu Zeng, Rui Zhao, Ping Luo
主动学习为用最少的标记数据训练高性能模型提供了一种有前途的途径,通过明智地选择信息最丰富的实例进行标记并将它们合并到任务学习器中来实现。尽管图像识别的主动学习取得了显着的进步,但设计或学习的用于衡量数据信息增益的指标(对于查询策略设计至关重要)并不始终与任务模型性能指标保持一致,例如对象检测任务中的平均精度 MeanAP。本文介绍了用于对象检测的 MeanAP 引导强化主动学习 MAGRAL,这是一种直接利用任务模型的 MeanAP 度量来设计采用基于强化学习的采样代理的采样策略的新颖方法。该代理基于 LSTM 架构构建,可以有效地探索和选择后续训练实例,并通过策略梯度优化流程,并以 MeanAP 作为奖励。认识到 MeanAP 计算在每个步骤中的时间密集性,我们建议快速查找表以加快代理训练。我们利用不同的骨干架构,在流行的基准、PASCAL VOC 和 MS COCO 上评估 MAGRAL 的功效。实证结果证实了 MAGRAL 相对于最新最先进方法的优越性,展示了显着的性能提升。

AutoVP: An Automated Visual Prompting Framework and Benchmark
Authors Hsi Ai Tsao, Lei Hsiung, Pin Yu Chen, Sijia Liu, Tsung Yi Ho
视觉提示 VP 是一种新兴的参数高效微调方法,可采用预先训练的视觉模型来解决各种下游图像分类任务。然而,迄今为止,对VP设计空间的系统研究还很少,也没有明确的评估其性能的基准。为了弥补这一差距,我们提出了 AutoVP,这是一个用于自动化 VP 设计选择的端到端可扩展框架,以及 12 个下游图像分类任务,可以作为整体 VP 性能基准。我们的设计空间涵盖 1 提示的联合优化 2 预训练模型的选择,包括图像分类器和文本图像编码器以及 3 模型输出映射策略,包括非参数和可训练标签映射。我们广泛的实验结果表明,AutoVP 的性能大幅优于当前最著名的 VP 方法,与线性探测 LP 基线相比,精度提高了 6.7 倍,性能最大提高了 27.5 倍。因此,AutoVP 做出了双重贡献,既作为 VP 设计选择的超参数调整的有效工具,又作为可以合理预期加速 VP 开发的综合基准。

Worst-Case Morphs using Wasserstein ALI and Improved MIPGAN
Authors Una M. Kelly, Meike Nauta, Lu Liu, Luuk J. Spreeuwers, Raymond N. J. Veldhuis
过去几年,使用生成对抗网络 GAN 创建逼真图像方面取得了很大进展。然而,为了能够使用真实数据作为输入来重建图像或生成图像,需要一个编码器来反转从 GAN 的潜在空间到图像空间的映射。这意味着需要三个网络:一个编码器、一个在普通 GAN 中称为生成器的解码器和一个判别器。这三个网络可以同时从头开始训练“对抗性学习推理”,或者可以训练一个编码器网络,将图像映射到 textit 预训练的 GAN 模型 Inverse GAN 的潜在空间中。在后一种情况下,网络是连续训练的,因此编码器必须使用解码器在 GAN 训练期间学到的任何模型。同时训练三个网络更加不稳定,因此更具挑战性,但编码器和解码器可能会从训练期间的相互交互中受益。

UniPAD: A Universal Pre-training Paradigm for Autonomous Driving
Authors Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang
在自动驾驶的背景下,有效特征学习的重要性得到了广泛认可。虽然传统的 3D 自监督预训练方法已经取得了广泛的成功,但大多数方法都遵循最初为 2D 图像设计的想法。在本文中,我们提出了 UniPAD,一种应用 3D 体积可微渲染的新型自监督学习范例。 UniPAD 隐式编码 3D 空间,有助于重建连续的 3D 形状结构及其 2D 投影的复杂外观特征。我们方法的灵活性使得能够无缝集成到 2D 和 3D 框架中,从而能够更全面地理解场景。我们通过对各种下游 3D 任务进行广泛的实验来证明 UniPAD 的可行性和有效性。我们的方法将基于激光雷达、相机和激光雷达相机的基线分别显着提高了 9.1、7.7 和 6.9 NDS。值得注意的是,我们的预训练管道在 nuScenes 验证集上实现了 3D 对象检测 73.2 NDS 和 3D 语义分割 79.4 mIoU,与之前的方法相比,实现了最先进的结果。

Mapping Memes to Words for Multimodal Hateful Meme Classification
Authors Giovanni Burbi, Alberto Baldrati, Lorenzo Agnolucci, Marco Bertini, Alberto Del Bimbo
多模态图像文本模因在互联网上盛行,作为一种独特的交流形式,结合视觉和文本元素来传达幽默、想法或情感。然而,一些表情包却恶意转向,宣扬仇恨内容并延续歧视。在这种多模式环境中检测仇恨模因是一项具有挑战性的任务,需要理解文本和图像相互交织的含义。在这项工作中,我们通过提出一种名为 ISSUES 的新方法来解决这个问题,用于多模式仇恨模因分类。 ISSUES 利用预先训练的 CLIP 视觉语言模型和文本反演技术来有效捕获模因的多模态语义内容。实验表明,我们的方法在 Hateful Memes Challenge 和 HarMeme 数据集上取得了最先进的结果。

Real-Time Neural BRDF with Spherically Distributed Primitives
Authors Yishun Dou, Zhong Zheng, Qiaoqiao Jin, Bingbing Ni, Yugang Chen, Junxiang Ke
我们提出了一种新颖的紧凑且高效的神经 BRDF,提供高度通用的材质表示,但具有非常轻的内存和神经计算消耗,可实现实时渲染。图 1 中的结果在当前台式机上以全高清分辨率渲染,表明我们的系统实现了具有多种外观的实时渲染,这是通过以下两种设计实现的。一方面,注意到双向反射率分布在非常稀疏的高维子空间中,我们建议将 BRDF 投影到两个低维分量中,即分别用于传入和传出方向的两个半球特征网格。另一方面,可学习的神经反射基元分布在我们高度定制的球面网格上,为每个组件提供信息丰富的特征,并将传统的重特征学习网络减轻到更小的网络,从而实现非常快速的评估。这些基元集中存储在密码本中,并且可以基于存储在材料特定球面网格中的低成本索引,在多个网格甚至跨材料之间共享。我们的神经 BRDF 与材料无关,它提供了一个统一的框架,可以以一致的方式表示各种材料。

NSM4D: Neural Scene Model Based Online 4D Point Cloud Sequence Understanding
Authors Yuhao Dong, Zhuoyang Zhang, Yunze Liu, Li Yi
在线理解4D点云序列在VR AR、机器人、自动驾驶等各种场景中具有重要的实用价值。关键目标是在非结构化和冗余点云序列到达时持续分析 3D 场景的几何形状和动力学。主要挑战是有效地对长期历史进行建模,同时保持计算成本可控。为了应对这些挑战,我们引入了一种称为 NSM4D 的通用在线 4D 感知范例。 NSM4D作为一种即插即用策略,可以适应现有的4D骨干网,显着增强其室内和室外场景的在线感知能力。为了有效捕获冗余的 4D 历史,我们提出了一种神经场景模型,通过构建单独存储几何和运动特征的几何标记来分解几何和运动信息。利用历史变得像查询神经场景模型一样简单。随着序列的进展,神经场景模型会动态变形以与新的观察结果保持一致,从而有效地提供历史背景并根据新的观察结果进行自我更新。通过采用令牌表示,NSM4D 还表现出对低水平传感器噪声的鲁棒性,并通过几何采样方案保持紧凑的尺寸。我们将 NSM4D 与最先进的 4D 感知主干相集成,展示了室内和室外环境中各种在线感知基准的显着改进。值得注意的是,我们的 HOI4D 在线动作分割准确率提高了 9.6,SemanticKITTI 在线语义分割准确率提高了 3.4 mIoU。

Extended target tracking utilizing machine-learning software -- with applications to animal classification
Authors Magnus Malmstr m, Anton Kullberg, Isaac Skog, Daniel Axehill, Fredrik Gustafsson
本文考虑检测和跟踪图像序列中的对象的问题。该问题在过滤框架中表述,使用对象检测算法的输出作为测量。提出了对过滤公式的扩展,即使对象检测算法输出不正确的预测,它也可以结合前一帧的类信息来增强分类。此外,利用对象检测算法的属性来量化每帧中边界框检测的不确定性。完整的过滤方法在四种大型瑞典食肉动物(熊、山猫、狼和狼獾)的相机陷阱图像上进行了评估。

GePSAn: Generative Procedure Step Anticipation in Cooking Videos
Authors Mohamed Ashraf Abdelsalam, Samrudhdhi B. Rangrej, Isma Hadji, Nikita Dvornik, Konstantinos G. Derpanis, Afsaneh Fazly
我们研究程序视频中未来步骤预期的问题。给定正在进行的程序活动的视频,我们预测以丰富的自然语言描述的合理的下一个程序步骤。虽然之前的大多数工作都集中在程序视频数据集中的数据稀缺问题,但未来预期的另一个核心挑战是如何解释自然环境中多种可能的未来实现。这个问题在以前的工作中很大程度上被忽视了。为了应对这一挑战,我们将未来步骤预测构建为对下一步所有可能候选者的分布进行建模。具体来说,我们设计了一个生成模型,以一系列视频剪辑作为输入,并以自然语言生成多个合理且多样化的候选者,以供下一步使用。继之前的工作之后,我们通过在基于大型文本的程序活动语料库上预训练我们的模型来解决视频注释稀缺的问题,然后将模型转移到视频领域。我们在文本和视频领域的实验表明,我们的模型捕获了下一步预测的多样性,并生成了多个合理的未来预测。此外,我们的模型在 YouCookII 上建立了新的最先进结果,在下一步预期方面优于现有基线。

CHIP: Contrastive Hierarchical Image Pretraining
Authors Arpit Mittal, Harshil Jhaveri, Swapnil Mallick, Abhishek Ajmera
少镜头对象分类是用有限数量的示例作为监督对图像中的对象进行分类的任务。我们提出了一种一次性分类模型,可以将任何看不见的类别的对象分类为基于层次的分类中相对一般的类别。我们的模型使用基于三级分层对比损失的 ResNet152 分类器,根据从图像嵌入中提取的对象特征(在训练阶段未使用)对对象进行分类。在我们的实验中,我们使用了 ImageNet ILSVRC 12 数据集的一个子集,其中仅包含用于训练我们的模型的动物类,并创建了我们自己的未见过的类的数据集来评估我们训练的模型。

Multimodal Variational Auto-encoder based Audio-Visual Segmentation
Authors Yuxin Mao, Jing Zhang, Mochu Xiang, Yiran Zhong, Yuchao Dai
我们提出了一种用于视听分割AVS的显式条件多模变分自动编码器ECMVAE,旨在分割视频序列中的声源。现有的 AVS 方法侧重于隐式特征融合策略,其中模型经过训练以适应数据集中的离散样本。由于数据集有限且多样性较低,所得到的性能通常不能令人满意。相反,我们从有效表示学习的角度解决这个问题,旨在明确地建模每种模态的贡献。具体来说,我们发现音频包含声音产生者的关键类别信息,视觉数据提供候选声音产生者。他们共享的信息对应于视觉数据中显示的目标声音产生者。在这种情况下,跨模态共享表示学习对于 AVS 尤为重要。为了实现这一目标,我们的 ECMVAE 将每种模态的表示分解为模态共享表示和模态特定表示。在共享表示和特定表示之间应用正交性约束,以维持因式分解的潜在代码的排他属性。此外,引入了互信息最大化正则化器来实现对每种模态的广泛探索。

Direction-Oriented Visual-semantic Embedding Model for Remote Sensing Image-text Retrieval
Authors Qing Ma, Jiancheng Pan, Cong Bai
图片文本检索近年来发展迅速。然而,由于视觉语义不平衡,导致非语义视觉和文本特征的错误匹配,这仍然是遥感中的一个挑战。为了解决这个问题,我们提出了一种新颖的方向导向视觉语义嵌入模型 DOVE 来挖掘视觉和语言之间的关系。具体来说,面向区域的注意力模块 ROAM 以区域视觉特征为导向,自适应地调整潜在语义空间中最终视觉和文本嵌入之间的距离。同时,轻量级的挖掘文本基因组助手 DTGA 旨在扩展易于处理的文本表示的范围,并使用较少的注意力操作来增强全局词级语义连接。最终,我们利用全局视觉语义约束来减少单一视觉依赖性,并作为最终视觉和文本表示的外部约束。

GraphAlign: Enhancing Accurate Feature Alignment by Graph matching for Multi-Modal 3D Object Detection
Authors Ziying Song, Haiyue Wei, Lin Bai, Lei Yang, Caiyan Jia
LiDAR 和摄像头是自动驾驶中 3D 物体检测的互补传感器。然而,探索点云和图像之间的非自然交互具有挑战性,关键因素是如何进行异构模态的特征对齐。目前许多方法仅通过投影标定来实现特征对齐,没有考虑传感器之间坐标转换精度误差的问题,导致性能次优。在本文中,我们提出了 GraphAlign,这是一种通过图匹配进行 3D 对象检测的更准确的特征对齐策略。具体来说,我们融合图像分支中语义分割编码器的图像特征和 LiDAR 分支中 3D 稀疏 CNN 的点云特征。为了节省计算量,我们通过计算划分为点云特征的子空间内的欧氏距离来构造最近邻关系。通过图像和点云之间的投影校准,将点云特征的最近邻投影到图像特征上。然后,通过将单个点云的最近邻居与多个图像进行匹配,我们搜索更合适的特征对齐。此外,我们提供了一个自注意力模块来增强重要关系的权重,以微调异构模态之间的特征对齐。

Distilling from Vision-Language Models for Improved OOD Generalization in Vision Tasks
Authors Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu
视觉语言模型 VLM(例如 CLIP)经过大量图像文本对的训练,从而在多个数据分布上产生显着的泛化能力。这些模型极其昂贵的培训和数据收集管理成本使它们成为组织宝贵的知识产权。这激发了供应商客户端范例,其中供应商训练大规模 VLM,并在黑盒设置中按查询付费仅向客户端授予输入输出访问权限。客户的目标是通过使用有限的可用任务特定数据将 VLM 提炼为学生模型,并在下游应用程序中进一步部署该学生模型,从而最大限度地降低推理成本。虽然朴素蒸馏很大程度上提高了学生的域内 ID 准确性,但它无法使用有限的可用标记图像来传输 VLM 教师的分布外 OOD 泛化。为了缓解这个问题,我们提出了 Vision Language to Vision Align, Distill, Predict VL2V ADiP,它首先将教师模型的视觉和语言模态与预先训练的学生模型的视觉模态进行对齐,并进一步将对齐的 VLM 嵌入提炼为学生。这最大限度地保留了学生预先训练的特征,同时还结合了 VLM 图像编码器的丰富表示和文本嵌入的高级泛化。

Fast Discrete Optimisation for Geometrically Consistent 3D Shape Matching
Authors Paul Roetzer, Ahmed Abbas, Dongliang Cao, Florian Bernard, Paul Swoboda
在这项工作中,我们建议将基于学习和组合形式的优点结合起来进行 3D 形状匹配。虽然基于学习的形状匹配解决方案带来了最先进的匹配性能,但它们不能确保几何一致性,因此获得的匹配局部不平滑。相反,公理方法允许通过显式约束有效匹配的空间来考虑几何一致性。然而,现有的公理形式主义是不切实际的,因为它们不能扩展到实际相关的问题规模,或者它们需要用户输入来初始化非凸优化问题。在这项工作中,我们的目标是通过提出一种新颖的组合求解器来缩小这一差距,该求解器结合了一组独特的有利属性,我们的方法是 i 免初始化,ii 由准牛顿方法支持的大规模并行化,iii 提供最优性差距,iv 减少运行时间

Structural analysis of Hindi online handwritten characters for character recognition
Authors Anand Sharma MIET, Meerut , A. G. Ramakrishnan IISc, Bengaluru
在线笔划的方向属性用于根据均匀区域或具有满足共同几何属性的点的子笔划来分析它们。这样的子笔划称为子单元。这些属性用于从印地语理想在线字符中提取子单元。这些属性以及一些启发式方法用于从印地语在线手写字符中提取子单元。开发了一种从印地语在线手写字符中提取点笔划、顺时针曲线笔划、逆时针曲线笔划和循环笔划段作为子单元的方法。这些提取的子单元在结构上与对应的印地语在线理想字符的子单元接近。通过使用从用于字符识别的字符中提取的子单元级局部和字符级全局特征来训练分类器,来评估在线手写字符在子单元方面的局部表示的重要性。分类器在测试集上的识别准确率为93.5。与仅使用从同一训练集中的字符提取的全局特征进行训练并在同一测试集上进行评估的分类器相比,该准确率是最高的。子单元提取算法和基于子单元的字符分类器在印地语在线手写字符数据集上进行了测试。该数据集由 96 个不同角色的样本组成。

Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss
Authors Jinye Yang, Ji Xu
长尾LT分类是现实世界中不可避免且具有挑战性的问题。现有的长尾分类方法大多只关注于解决类间不平衡,即头类样本数多于尾类样本数,而忽略了类内不平衡性,即头类属性的样本数量多于尾类的样本数。同一类的样本数远大于尾部属性的样本数。模型的偏差是由这两个因素造成的,并且由于大多数数据集中属性是隐含的,并且属性的组合非常复杂,类内不平衡更难以处理。为此,我们提出了一种长尾分类框架,称为textbf textsc Cognizance,它建立在粗粒度领先森林CLF和多中心损失MCL基础上,旨在通过不变特征学习构建多粒度联合解决模型。在该方法中,我们设计了一种无监督学习方法,即 CLF,以更好地表征类内属性的分布。根据属性的分布情况,我们可以灵活构建适合不同环境的采样策略。此外,我们引入了一种新的度量学习损失MCL,其目的是在特征学习过程中逐渐消除令人困惑的属性。更重要的是,该方法不依赖于特定的模型结构,可以作为独立组件与现有的LT方法集成。我们进行了大量的实验,我们的方法在现有基准 ImageNet GLT 和 MSCOCO GLT 中都具有最先进的性能,并且可以提高现有 LT 方法的性能。

Lifelong Audio-video Masked Autoencoder with Forget-robust Localized Alignments
Authors Jaewoo Lee, Jaehong Yoon, Wonjae Kim, Yunji Kim, Sung Ju Hwang
我们提出了一种终身音频视频屏蔽自动编码器,它不断地从包含音频视频对的视频流中学习多模态表示,而其分布随着时间的推移不断变化。具体来说,我们提出了两个新颖的想法来解决这个问题: 1 局部对齐 我们引入了一个小型可训练多模态编码器,它可以预测彼此对齐良好的音频和视频标记。这使得模型能够仅学习具有准确多模态关系的高度相关的视听块。 2 忘记稳健的多模态补丁选择我们比较当前和过去数据对之间每个音频视频补丁的相对重要性,以减轻先前学习的音频视频表示的意外漂移。因此,我们提出的方法 FLAVA Forget 鲁棒的本地化音频视频对齐在一系列预训练任务的训练过程中捕获了音频和视频模态之间的复杂关系,同时减轻了对学习到的视听相关性的遗忘。

XIMAGENET-12: An Explainable AI Benchmark Dataset for Model Robustness Evaluation
Authors Qiang Li, Dan Zhang, Shengzhao Lei, Xun Zhao, Shuyan Li, Porawit Kamnoedboon, WeiWei Li
缺乏标准化的鲁棒性指标以及对大量不相关的基准数据集进行测试的广泛依赖,在学术上验证的鲁棒性模型与其经常出现问题的实际采用之间造成了差距。为了解决这个问题,我们引入了 XIMAGENET 12,这是一个可解释的基准数据集,包含超过 20 万张图像和 15,600 个手动语义注释。涵盖 ImageNet 中的 12 个类别来表示实际生活中常见的物体,并模拟六种不同的场景,包括过度曝光、模糊、颜色变化等,我们进一步提出了一种超越模型生成能力评估的新颖的鲁棒性标准。

A Deep Learning Framework for Spatiotemporal Ultrasound Localization Microscopy
Authors L o Milecki, Jonathan Por e, Hatim Belgharbi, Chlo Bourquin, Rafat Damseh, Patrick Delafontaine Martel, Fr d ric Lesage, Maxime Gasse, Jean Provost
超声定位显微镜可以将微血管床分辨率缩小到几微米。为了实现这样的性能,微泡造影剂必须灌注整个微血管网络。然后,微泡被单独定位并随着时间的推移进行跟踪,以对单个血管进行采样,通常超过数十万张图像。为了克服衍射的基本限制并实现网络的密集重建,必须使用低微泡浓度,这导致采集持续几分钟。传统的处理管道目前无法应对附近多个微泡的干扰,从而进一步降低了可达到的浓度。这项工作通过提出一种深度学习方法来克服这个问题,从高微泡浓度的超声采集中恢复密集的血管网络。使用从 2 光子显微镜分割出来的真实小鼠大脑微血管网络来训练基于 V 网络架构的三维卷积神经网络。对流经微血管网络的多个微泡的超声数据集进行了模拟,并将其用作地面实况来训练 3D CNN 跟踪微泡。 3D CNN 方法使用数据子集在计算机上进行了验证,并在大鼠大脑采集的体内进行了验证。在计算机模拟中,CNN 重建血管网络的精度 81 比传统的 ULM 框架 70 更高。

Fine-Grained Annotation for Face Anti-Spoofing
Authors Xu Chen, Yunde Jia, Yuwei Wu
人脸反欺骗在保护人脸识别系统免受演示攻击方面发挥着至关重要的作用。虽然现有的深度学习方法显示出有希望的结果,但它们仍然缺乏细粒度的注释,这导致模型学习任务不相关或不忠实的特征。在本文中,我们提出了一种用于人脸反欺骗的细粒度标注方法。具体来说,我们首先利用 Segment Anything Model SAM 通过利用人脸地标作为点提示来获取像素级分割掩模。面部标志提供分割语义,将面部分割成区域。然后,我们采用这些区域作为掩模,并将它们组装成三个独立的注释图:恶搞图、生活图和背景图。最后,我们将三个单独的图组合成一个三通道图作为模型训练的注释。此外,我们引入了多通道区域交换增强 MCREA 来使训练数据多样化并减少过度拟合。

DualAug: Exploiting Additional Heavy Augmentation with OOD Data Rejection
Authors Zehao Wang, Yiwen Guo, Qizhang Li, Guanglei Yang, Wangmeng Zuo
数据增强是减少模型过度拟合和提高泛化能力的主要方法。大多数现有的数据增强方法倾向于在数据增强方面找到折衷方案,即小心地增加增强幅度,以避免过度降低某些数据并损害模型性能。我们深入研究了数据增强和模型性能之间的关系,揭示了大量增强导致的性能下降来自于分布外 OOD 数据的存在。尽管如此,由于相同的数据变换对于不同的训练样本有不同的效果,即使对于大量的增强,仍然存在有利于模型训练的分布数据。基于观察,我们提出了一种新颖的数据增强方法,名为 textbf DualAug ,以在合理的时间和计算成本下尽可能保持分布的增强。我们设计了一种数据混合策略来融合来自基本增强分支和重度增强分支的增强数据。对监督图像分类基准的大量实验表明,DualAug 改进了各种自动数据增强方法。此外,半监督学习和对比自监督学习的实验表明,我们的 DualAug 还可以改进相关方法。

Tailored Visions: Enhancing Text-to-Image Generation with Personalized Prompt Rewriting
Authors Zijie Chen, Lichao Zhang, Fangsheng Weng, Lili Pan, Zhenzhong Lan
我们提出了一种将大型预训练模型视为搜索引擎的新颖视角,从而能够重新利用以前用于增强搜索引擎性能的技术。作为说明,我们在文本到图像生成领域采用了个性化查询重写技术。尽管该领域取得了重大进展,但创建与个人用户的愿望和偏好紧密结合的个性化视觉表示仍然具有挑战性。这个过程需要用户用模型可以理解的语言表达他们的想法,并准确捕捉他们的愿景,这给许多用户带来了困难。在本文中,我们通过利用历史用户与系统的交互来增强用户提示来应对这一挑战。我们提出了一种新颖的方法,该方法涉及基于新的大规模文本到图像数据集重写用户提示,其中包含来自 3115 个用户的超过 30 万条提示。我们的重写模型增强了用户提示与其预期视觉输出的表现力和一致性。实验结果证明了我们的方法相对于基线方法的优越性,正如我们新的离线评估方法和在线测试所证明的那样。

DUSA: Decoupled Unsupervised Sim2Real Adaptation for Vehicle-to-Everything Collaborative Perception
Authors Xianghao Kong, Wentao Jiang, Jinrang Jia, Yifeng Shi, Runsheng Xu, Si Liu
车联网V2X协同感知对于自动驾驶至关重要。然而,实现高精度 V2X 感知需要大量带注释的现实世界数据,而这些数据总是昂贵且难以获取。模拟数据因其可以以极低的成本大量生产而引起了广泛关注。然而,模拟数据和现实世界数据之间存在显着的领域差距,包括传感器类型、反射模式和道路环境的差异,通常会导致在模拟数据上训练的模型在对现实世界数据进行评估时表现不佳。此外,现实世界的协作代理之间仍然存在领域差距,例如不同类型的传感器可能安装在具有不同外部特性的自动驾驶车辆和路边基础设施上,进一步增加了 sim2real 泛化的难度。为了充分利用模拟数据,我们提出了一种用于 V2X 协作检测的新的无监督 sim2real 域自适应方法,名为解耦无监督 Sim2Real Adaptation DUSA 。我们的新方法将 V2X 协作 sim2real 域适应问题解耦为两个子问题 sim2real 适应和代理间适应。对于 sim2real 适应,我们设计了一个位置自适应 Sim2Real Adapter LSA 模块,以自适应地聚合来自特征图关键位置的特征,并通过聚合全局特征上的 sim real 判别器来对齐模拟数据和现实世界数据之间的特征。对于代理间适应,我们进一步设计了一个置信感知代理间适配器 CIA 模块,以在智能代理置信图的指导下对齐来自异构代理的细粒度特征。

Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models
Authors Beier Zhu, Kaihua Tang, Qianru Sun, Hanwang Zhang
像 CLIP 这样的基础模型允许在各种任务上进行零样本迁移,而无需额外的训练数据。然而,零射击表现的竞争力不如完全监督的表现。因此,为了提高性能,通常采用微调和集成来更好地适应下游任务。然而,我们认为此类先前的工作忽略了基础模型的固有偏差。由于Web规模训练集高度不平衡,这些基础模型不可避免地偏向频繁语义,因此后续的微调或集成仍然存在偏差。在这项研究中,我们系统地检查了基础模型中的偏差,并证明了我们提出的广义 Logit 调整 GLA 方法的有效性。请注意,基础模型中的偏差估计具有挑战性,因为大多数训练前数据无法像传统的长尾分类任务那样显式访问。为此,GLA 拥有一种基于优化的偏差估计方法,用于消除基础模型的偏差。由于我们的工作解决了预训练中的一个基本缺陷,所提出的 GLA 在各种任务中展示了显着的改进,它在 ImageNet 上实现了 1.5 pp 的准确度增益,在 11 个镜头数据集上平均提高了 1.4 4.6 pp,在长尾分类。

SingleInsert: Inserting New Concepts from a Single Image into Text-to-Image Models for Flexible Editing
Authors Zijie Wu, Chaohui Yu, Zhen Zhu, Fan Wang, Xiang Bai
文本到图像 T2I 模型的最新进展可通过灵活的文本控制生成高质量图像。为了利用现成的 T2I 模型中丰富的视觉先验,一系列方法尝试将图像反转为与 T2I 模型的语义空间一致的正确嵌入。然而,这些图像到文本 I2T 反演方法通常需要包含相同概念的多个源图像,或者面临编辑灵活性和视觉保真度之间的不平衡。在这项工作中,我们指出学习预期概念时的关键问题在于前景背景纠缠,并提出了一种简单有效的单图像 I2T 反演基线,名为 SingleInsert。 SingleInsert采用两阶段方案。在第一阶段,我们调节学习的嵌入以集中于前景区域,而不与不相关的背景相关联。在第二阶段,我们微调 T2I 模型以获得更好的视觉相似性,并设计语义损失来防止语言漂移问题。通过所提出的技术,SingleInsert 在单一概念生成方面表现出色,具有高视觉保真度,同时允许灵活编辑。此外,SingleInsert 可以执行单图像新颖视图合成和多个概念合成,而无需联合训练。为了便于评估,我们设计了编辑提示列表,并引入了编辑成功率ESR的指标来定量评估编辑灵活性。

Consistent123: Improve Consistency for One Image to 3D Object Synthesis
Authors Haohan Weng, Tianyu Yang, Jianan Wang, Yu Li, Tong Zhang, C. L. Philip Chen, Lei Zhang
大图像扩散模型可实现具有高质量和出色的零射击能力的新颖视图合成。然而,此类基于图像到图像转换的模型无法保证视图一致性,从而限制了 3D 重建和图像到 3D 生成等下游任务的性能。为了增强一致性,我们提出 Confluence123 通过结合额外的跨视图注意力层和共享的自注意力机制来同时合成新颖的视图。所提出的注意力机制改善了所有合成视图之间的交互,以及条件视图和新视图之间的对齐。在采样阶段,这种架构支持在固定长度的训练时同时生成任意数量的视图。我们还引入了一种渐进式无分类器引导策略,以实现合成对象视图的纹理和几何形状之间的权衡。定性和定量实验表明,Constant123 在视图一致性方面大幅优于基线。此外,我们还展示了 Confluence123 在不同下游任务上的显着改进,显示了其在 3D 生成领域的巨大潜力。

Volumetric Medical Image Segmentation via Scribble Annotations and Shape Priors
Authors Qiuhui Chen, Haiying Lyu, Xinyue Hu, Yong Lu, Yi Hong
最近,使用诸如涂鸦之类的弱注释的弱监督图像分割在计算机视觉和医学图像分析中引起了极大的关注,因为与像素体素级别上耗时且费力的标记相比,此类注释更容易获得。然而,由于缺乏对感兴趣区域 ROI 的结构监督,现有的基于涂鸦的方法存在边界定位不佳的问题。此外,大多数当前方法都是为二维图像分割而设计的,如果直接应用于每个图像切片,则不能充分利用体积信息。在本文中,我们提出了一种基于涂鸦的体积图像分割 Scribble2D5,它解决 3D 各向异性图像分割问题并旨在改进边界预测。为了实现这一目标,我们使用提议的标签传播模块增强 2.5D 注意力 UNet,以扩展涂鸦中的语义信息,并使用静态和主动边界预测的组合来学习 ROI 的边界并规范其形状。此外,我们提出了一个可选的附加组件,它结合了来自不配对分割掩模的形状先验信息,以进一步提高模型的准确性。

Jointly Optimized Global-Local Visual Localization of UAVs
Authors Haoling Li, Jiuniu Wang, Zhiwei Wei, Wenjia Xu
当全球导航卫星系统 GNSS 受到干扰且不可靠时,无人机的导航和定位会带来挑战。传统技术,例如同时定位和建图 SLAM 和视觉里程计 VO ,在提供绝对坐标和减轻误差累积方面表现出一定的局限性。现有的视觉定位方法通过与正射卫星图像匹配,实现无误差累积的自主视觉定位。然而,由于匹配过程复杂,这样做不能保证实时性。为了应对这些挑战,我们提出了一种新颖的全局局部视觉定位 GLVL 网络。我们的 GLVL 网络是一种两阶段视觉定位方法,结合了查找与无人机飞行场景相似区域的大规模检索模块和定位精确无人机坐标的细粒度匹配模块,从而实现了实时和精确的定位。训练过程以端到端的方式联合优化,进一步提升模型能力。对包含纹理丰富和纹理稀疏区域的六个无人机飞行场景进行的实验证明了我们的模型能够实现无人机实时精确定位要求。

Age Estimation Based on Graph Convolutional Networks and Multi-head Attention Mechanisms
Authors Miaomiao Yang, Changwei Yao, Shijin Yan
年龄估计技术是面部识别的一部分,已应用于身份认证。该技术通过对游戏中的用户进行身份验证,实现青少年防沉迷系统的开发和应用。卷积神经网络CNN和Transformer算法在该应用场景中得到广泛应用。然而,这两种模型无法灵活地提取和建模不规则形状的人脸特征,并且无法有效捕获关键信息。此外,上述方法在提取特征时会包含大量背景信息,这会对模型产生干扰。因此,很容易从图像中提取冗余信息。本文针对这一问题提出了一种新的建模思路,可以灵活地对不规则物体进行建模。利用图卷积网络GCN有效地从不规则人脸图像中提取特征,并添加多头注意力机制以避免冗余特征并捕获图像中的关键区域信息。

EC-Depth: Exploring the consistency of self-supervised monocular depth estimation under challenging scenes
Authors Ruijie Zhu, Ziyang Song, Chuxin Wang, Jianfeng He, Tianzhu Zhang
自监督单目深度估计在自动驾驶和机器人领域具有重要意义。然而,现有的方法通常被设计为在清晰和原始的数据集上进行训练和测试,忽略了现实世界场景中普遍存在的各种不利条件的影响。因此,通常观察到大多数自监督单目深度估计方法在具有挑战性的条件下难以充分执行。为了解决这个问题,我们提出了 EC Depth,一种新颖的自监督两阶段训练框架,从不同扰动下深度预测一致性的基础出发,实现鲁棒的深度估计。利用所提出的扰动不变深度一致性约束模块和基于一致性的伪标签选择模块,我们的模型在标准和具有挑战性的场景中都获得了准确且一致的深度预测。大量的实验证实了所提出方法的有效性。

X-HRNet: Towards Lightweight Human Pose Estimation with Spatially Unidimensional Self-Attention
Authors Yixuan Zhou, Xuanhan Wang, Xing Xu, Lei Zhao, Jingkuan Song
高分辨率表示是人体姿态估计实现高性能所必需的,随之而来的问题是计算复杂度高。特别是,主要的姿势估计方法通过 2D 单峰热图来估计人体关节。每个 2D 热图都可以水平和垂直投影到一对 1D 热矢量并由一对 1D 热矢量重建。受这一观察的启发,我们向作为深度可分离 3c3 卷积中主要计算瓶颈的点式 1x1 卷积引入了一种轻量级且强大的替代方案,即空间单维自注意力 SUSA。我们的 SUSA 在不牺牲精度的情况下将逐点 1x1 卷积的计算复杂度降低了 96。此外,我们使用 SUSA 作为主要模块来构建轻量级姿态估计主干 X HRNet,其中 X 表示估计的交叉形状注意向量。 COCO 基准上的大量实验证明了我们的 X HRNet 的优越性,全面的消融研究表明了 SUSA 模块的有效性。

BaSAL: Size Balanced Warm Start Active Learning for LiDAR Semantic Segmentation
Authors Jiarong Wei, Yancong Lin, Holger Caesar
主动学习致力于通过重复查询注释器来标记未标记数据池中信息最丰富的样本,并根据这些样本重新训练模型,从而减少对昂贵数据注释的需求。我们发现现有的激光雷达语义分割主动学习方法存在两个问题。首先,他们忽略了 LiDAR 语义分割数据集中固有的严重类别不平衡。其次,为了引导主动学习循环,他们从随机选择的数据样本中训练初始模型,这导致性能低下,被称为冷启动问题。为了解决这些问题,我们基于对每个对象类具有特征尺寸的观察,提出了 BaSAL,一种尺寸平衡的热启动主动学习模型。通过根据对象簇的大小对其进行采样,我们可以创建一个大小平衡的数据集,该数据集也更加类平衡。此外,与熵或 CoreSet 等现有信息度量相比,基于大小的采样不需要已经训练好的模型,因此可以用于解决冷启动问题。结果表明,我们能够大幅提高初始模型的性能。将大小平衡采样和热启动与已建立的信息测量相结合,我们的方法实现了与整个 SemanticKITTI 数据集上的训练相当的性能,尽管只使用了 5 个注释,这优于现有的主动学习方法。我们还匹配 nuScenes 主动学习中现有的最先进技术。

Beyond Sharing Weights in Decoupling Feature Learning Network for UAV RGB-Infrared Vehicle Re-Identification
Authors Xingyue Liu, Jiahao Qi, Chen Chen, Kangcheng Bin, Ping Zhong
由于具有全时目标搜索的能力,基于无人机的跨模态车辆重识别Re ID在视频监控和公共安全领域越来越受到关注。然而,由于数据不足问题,这项有前景的创新研究尚未得到充分研究。同时,跨模态差异和方向差异的挑战进一步加剧了这项任务的难度。为此,我们首创了跨模态车辆再识别基准,名为 UAV 跨模态车辆再识别 UCM VeID,包含 753 个身份、16015 个 RGB 图像和 13913 个红外图像。此外,为了应对跨模态差异和方向差异的挑战,我们提出了一种混合权重解耦网络 HWDNet 来学习共享的判别方向不变特征。对于第一个挑战,我们提出了一种混合权重暹罗网络,具有精心设计的权重限制器及其相应的目标函数,以学习模态特定信息和模态共享信息。就第二个挑战而言,研究了具有两个借口任务的三种有效解耦结构,以学习方向不变特征。进行了综合实验来验证所提出方法的有效性。

Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval
Authors Pandeng Li, Hongtao Xie, Jiannan Ge, Lei Zhang, Shaobo Min, Yongdong Zhang
无监督视频哈希通常通过学习重建输入视频来优化二进制代码。这种重建约束在帧级时间上下文变化上花费了大量精力,而没有关注对检索更有用的视频级全局语义。因此,我们通过将视频信息分解为重建相关信息和语义相关信息来解决这个问题,这将语义提取与重建约束分开。具体来说,我们首先设计一个简单的双流结构,包括时间层和哈希层。然后,借助自监督获得的语义相似性知识,哈希层学习捕获信息以进行语义检索,而时间层学习捕获信息以进行重建。通过这种方式,模型自然地将解开的语义保留为二进制代码。

Point-NeuS: Point-Guided Neural Implicit Surface Reconstruction by Volume Rendering
Authors Chen Zhang, Wanjuan Su, Wenbing Tao
最近,通过体积渲染学习神经隐式表面已成为多视图重建的一种有前途的方法。然而,有限的精度和过高的时间复杂度仍然是当前方法迫切需要克服的瓶颈。为了应对这些挑战,我们提出了一种称为 Point NeuS 的新方法,利用点引导机制来实现准确高效的重建。点建模有机地嵌入到体绘制中,以增强和规范隐式表面的表示。具体来说,为了实现精确的点引导和噪声鲁棒性,对点云的任意不确定性进行建模以捕获噪声分布并估计点的可靠性。此外,还引入了连接点和图像的神经投影模块,以向有符号距离函数 SDF 添加几何约束。为了更好地补偿体渲染和点建模之间的几何偏差,高保真点被过滤到隐式位移网络中以改进 SDF 的表示。受益于我们有效的点引导,与 NeuS 相比,采用轻量级网络实现了令人印象深刻的 11 倍加速。大量的实验表明,我们的方法可以产生高质量的表面,特别是对于细粒细节和平滑区域。

HeightFormer: A Multilevel Interaction and Image-adaptive Classification-regression Network for Monocular Height Estimation with Aerial Images
Authors Zhan Chen, Yidan Zhang, Xiyu Qi, Yongqiang Mao, Xin Zhou, Lulu Niu, Hui Wu, Lei Wang, Yunping Ge
高度估计长期以来一直是测量和遥感学科中的一个关键主题,事实证明对于 3D 城市建模、MR 和自动驾驶等工作至关重要。传统方法利用立体匹配或多传感器融合,这两种成熟的技术通常需要来自不同视角的多个图像和 SAR 等辅助传感器,从而导致高昂的部署成本。单图像高度估计已成为一种有吸引力的替代方案,拥有更大的数据源种类和更简单的部署。然而,当前的方法存在诸如固定感受野、缺乏全局信息交互等限制,导致实例级别高度偏差明显。当使用基于固定高度划分的主流回归方法时,高度预测固有的复杂性会导致对象边缘深度的估计模糊。本文提出了一种遥感单目高度估计的综合解决方案,称为 HeightFormer,结合了多级交互和图像自适应分类回归。它具有多级交互骨干 MIB 和图像自适应分类回归高度生成器 ICG。 MIB用不同交互范围的token补充了传统骨干网络CNN中的固定样本网格。它由像素、补丁和特征图级分层交互机制补充,旨在跨不同尺度传递空间几何信息,并引入全局感受野来增强实例级高度估计的质量。

Self-supervised visual learning for analyzing firearms trafficking activities on the Web
Authors Sotirios Konstantakos, Despina Ioanna Chalkiadaki, Ioannis Mademlis, Adamantia Anna Rebolledo Chrysochoou, Georgios Th. Papadopoulos
根据 RGB 图像进行自动视觉枪支分类是一项重要的现实任务,可应用于公共空间安全、情报收集和执法调查。当应用于从万维网(包括社交媒体和暗网站)大规模爬取的图像时,它可以通过分析开源情报的大数据,成为试图识别犯罪枪支贩运网络的系统的重要组成部分。深度神经网络 DNN 是实现这一目标的最先进方法,通常采用卷积神经网络 CNN。常见的迁移学习方法包括对用于整个图像分类的大规模、通用注释数据集(例如 ImageNet 1k)进行预训练,然后在较小的、带注释的、特定于任务的下游数据集上对 DNN 进行微调,以进行视觉枪械分类。迄今为止,无论是 Visual Transformer ViT 神经架构还是自监督学习 SSL 方法都尚未针对这一关键任务进行评估。

CleftGAN: Adapting A Style-Based Generative Adversarial Network To Create Images Depicting Cleft Lip Deformity
Authors Abdullah Hayajneh, Erchin Serpedin, Mohammad Shaqfeh, Graeme Glass, Mitchell A. Stotland
尝试训练机器学习系统来评估面部裂痕时的一个主要障碍是缺乏经伦理委员会批准的高质量患者图像的大型数据集。为此,我们构建了一个基于深度学习的唇裂生成器,旨在生成几乎无限数量的人工图像,展示具有广泛变化的高保真度唇裂传真。我们采用了迁移学习协议来测试不同版本的 StyleGAN ADA,这是一种以自适应数据增强 ADA 作为基础模型的生成对抗网络图像生成器。描绘各种裂隙畸形的训练图像经过预处理,以调整旋转、缩放、颜色调整和背景模糊。 ADA 对主要算法的修改允许构建我们的新生成模型,同时需要输入相对少量的训练图像。使用 514 张受影响面部的独特正面照片进行对抗性训练,以适应基于 70,000 张正常面部的预训练模型。 Frechet Inception Distance FID 用于测量新生成的面部图像与裂口训练数据集的相似性,同时感知路径长度 PPL 和新颖的严重性直方图发散指数 DISH 测量也用于评估图像生成器的性能我们称之为 CleftGAN。我们发现具有平移不变性的 StyleGAN3 作为基础模型表现最佳。生成的图像实现了低 FID,反映出与我们的真实裂隙图像的训练输入数据集非常相似。

Dynamic Appearance Particle Neural Radiance Field
Authors Ancheng Lin, Jun Li
神经辐射场 NeRF 在 3D 场景建模中表现出了巨大的潜力。动态 NeRF 通过捕获随时间变化的元素(通常使用变形场)来扩展此模型。现有的动态 NeRF 对光辐射和变形场采用类似的欧拉表示。这导致外观和运动紧密耦合,并且缺乏物理解释。在这项工作中,我们提出了动态外观粒子神经辐射场 DAP NeRF,它引入了基于粒子的表示来对动态 3D 场景中视觉元素的运动进行建模。 DAP NeRF 由静态场和动态场的叠加组成。动态场被量化为em外观粒子的集合,它携带了场景中微小动态元素的视觉信息,并配备了运动模型。所有组件,包括静态场、粒子的视觉特征和运动模型,都是从单目视频中学习的,无需事先了解场景的任何几何知识。我们为基于粒子的模型开发了一个有效的计算框架。我们还构建了一个新的数据集来评估运动建模。

LangNav: Language as a Perceptual Representation for Navigation
Authors Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola, Yoon Kim
我们探索使用语言作为视觉和语言导航的感知表示。我们的方法使用现成的视觉系统进行图像字幕和对象检测,将代理在每个时间步骤的以自我为中心的全景视图转换为自然语言描述。然后,我们对预训练的语言模型进行微调,以根据当前视图和轨迹历史记录来选择最能满足导航指令的操作。与采用预训练语言模型直接使用预训练视觉模型中的连续视觉特征的标准设置相反,我们的方法使用离散语言作为感知表示。我们在 R2R 视觉和语言导航基准上探索了基于语言的导航 LangNav 方法的两个用例,从提示的大语言模型 GPT 4 生成合成轨迹,用它来微调较小的语言模型并模拟到真实的迁移,其中我们迁移了学习到的策略在模拟环境 ALFRED 到真实环境 R2R 上。

A Survey of Feature Types and Their Contributions for Camera Tampering Detection
Authors Pranav Mantini, Shishir K. Shah
摄像机篡改检测是指通过分析视频来检测监控摄像机中未经授权和无意的更改的能力。摄像头篡改可能是由于自然事件造成的,也可能是故意破坏监视造成的。我们将篡改检测视为变更检测问题,并对现有文献进行回顾,重点关注特征类型。我们将篡改检测制定为时间序列分析问题,并设计实验来研究各种特征类型的鲁棒性和能力。我们计算现实世界监控视频的十个特征,并应用时间序列分析来确定它们的可预测性以及检测篡改的能力。

CrIBo: Self-Supervised Learning via Cross-Image Object-Level Bootstrapping
Authors Tim Lebailly, Thomas Stegm ller, Behzad Bozorgtabar, Jean Philippe Thiran, Tinne Tuytelaars
事实证明,利用最近邻检索进行自监督表示学习对于以对象为中心的图像是有益的。然而,这种方法在应用于以场景为中心的数据集时面临局限性,其中图像中的多个对象仅在全局表示中隐式捕获。这种全局引导可能会导致对象表示的不良纠缠。此外,即使是以对象为中心的数据集也可以从更细粒度的引导方法中受益。为了应对这些挑战,我们引入了一种新颖的跨图像对象级引导方法,旨在增强密集视觉表示学习。通过在整个训练过程中采用对象级最近邻引导,CrIBo 成为上下文学习的一个非常强大且足够的候选者,并在测试时利用最近邻检索。 CrIBo 在后一项任务中显示出最先进的性能,同时在更标准的下游分割任务中具有高度竞争力。

Automatic Identification of Stone-Handling Behaviour in Japanese Macaques Using LabGym Artificial Intelligence
Authors Th o Ardoin, C dric Sueur IPHC, ANTHROPO LAB, IUF
人工智能技术的最新进展为分析复杂行为打开了大门。有鉴于此,动物行为学家正在积极探索这些创新的潜力,以简化使用视频数据进行行为分析的时间密集型过程。在灵长类动物学领域,已经为此目的开发了几种工具。尽管如此,这些工具中的每一个都面临着我们旨在克服的技术限制。为了解决这些限制,我们建立了一个全面的协议,旨在利用尖端工具 LabGym 的功能。我们的主要目标是评估 LabGym 分析灵长类动物行为的适用性,重点关注日本猕猴作为我们的模型对象。我们已经成功开发了一个模型,该模型在检测日本猕猴的石头处理行为方面具有很高的准确性。我们的行为分析模型按照我们最初的预期完成,LabGym 成功识别视频中的石头处理行为。然而,值得注意的是,由于在指定时间范围内缺乏定量数据,我们的研究无法就行为分析的质量得出明确的结论。尽管如此,就我们的知识范围而言,我们的模型代表了利用 LabGym 分析灵长类动物行为的开创性努力。

Trajectory-aware Principal Manifold Framework for Data Augmentation and Image Generation
Authors Elvis Han Cui, Bingbin Li, Yanan Li, Weng Kee Wong, Donghui Wang
深度学习的数据增强有益于模型训练、图像转换、医学成像分析和许多其他领域。许多现有方法从参数分布(如高斯分布)生成新样本,很少关注沿着输入空间或特征空间中的数据流形生成样本。在本文中,我们验证了使用隐藏在特征空间中的主流形比高斯分布具有理论和实践优势。然后,我们提出了一种新颖的轨迹感知主流形框架来恢复流形主干并沿着特定轨迹生成样本。在自动编码器架构之上,我们进一步引入了内在维度正则化项,以使流形更加紧凑并能够生成少量的图像。

CRITERIA: a New Benchmarking Paradigm for Evaluating Trajectory Prediction Models for Autonomous Driving
Authors Changhe Chen, Mozhgan Pourkeshavarz, Amir Rasouli
基准测试是评估自动驾驶轨迹预测模型的常用方法。现有的基准依赖于数据集,这些数据集偏向于更常见的场景,例如巡航,以及通过对所有场景求平均值来计算的基于距离的指标。遵循这样的军团可以让我们对模型的属性有一些了解,包括它们处理不同场景的能力以及它们的输出的可接受性和多样性。

An automated approach for improving the inference latency and energy efficiency of pretrained CNNs by removing irrelevant pixels with focused convolutions
Authors Caleb Tung, Nicholas Eliopoulos, Purvish Jajal, Gowri Ramshankar, Chen Yun Yang, Nicholas Synovic, Xuecen Zhang, Vipin Chaudhary, George K. Thiruvathukal, Yung Hsiang Lu
计算机视觉通常使用高精度的卷积神经网络 CNN,但这些深度学习模型与不断增加的能量和计算需求相关。生产更节能的 CNN 通常需要模型训练,而成本可能过高。我们提出了一种新颖的自动化方法,无需重新训练即可使预训练的 CNN 更加节能。给定一个预训练的 CNN,我们插入一个阈值层,过滤前面层的激活值,以识别图像中不相关的区域,即可以被后面层忽略的区域,同时保持准确性。

3D TransUNet: Advancing Medical Image Segmentation through Vision Transformers
Authors Jieneng Chen, Jieru Mei, Xianhang Li, Yongyi Lu, Qihang Yu, Qingyue Wei, Xiangde Luo, Yutong Xie, Ehsan Adeli, Yan Wang, Matthew Lungren, Lei Xing, Le Lu, Alan Yuille, Yuyin Zhou
医学图像分割在推进疾病诊断和治疗计划的医疗保健系统中发挥着至关重要的作用。 U 形架构(俗称 U Net)已被证明在各种医学图像分割任务中非常成功。然而,U Net 基于卷积的操作本质上限制了其有效建模长距离依赖关系的能力。为了解决这些限制,研究人员转向以全局自注意力机制而闻名的 Transformer 作为替代架构。一个流行的网络是我们之前的 TransUNet,它利用 Transformers 自注意力来补充 U Net 的本地化信息和全球背景。在本文中,我们基于最先进的 nnU Net 架构,将 2D TransUNet 架构扩展到 3D 网络,并充分探索 Transformers 在编码器和解码器设计中的潜力。我们引入了两个关键组件:1 一个 Transformer 编码器,用于从卷积神经网络 CNN 特征图中标记图像块,从而能够提取全局上下文;2 一个 Transformer 解码器,通过利用候选提案和 U Net 特征之间的交叉注意力来自适应地细化候选区域。我们的调查表明,不同的医疗任务受益于不同的建筑设计。 Transformer 编码器在多器官分割方面表现出色,其中器官之间的关系至关重要。另一方面,Transformer 解码器被证明更有利于处理小型且具有挑战性的分割目标,例如肿瘤分割。大量实验展示了将基于 Transformer 的编码器和解码器集成到 u 形医学图像分割架构中的巨大潜力。

DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model
Authors Xiaofan Li, Yifu Zhang, Xiaoqing Ye
随着基于强大且统一的鸟瞰图BEV表示的自动驾驶的日益普及,迫切需要具有准确标注的高质量、大规模多视图视频数据。然而,由于昂贵的收集和注释成本,如此大规模的多视图数据很难获得。为了缓解这个问题,我们提出了一个时空一致的扩散框架 DrivingDiffusion,以生成由 3D 布局控制的逼真的多视图视频。在给定 3D 布局的情况下合成多视图视频时存在三个挑战 如何保持 1 跨视图一致性和 2 跨帧一致性 3 如何保证生成实例的质量 我们的 DrivingDiffusion 通过级联多视图单帧图像生成步骤解决了这个问题,由多个摄像机共享的单视图视频生成步骤,以及可以处理长视频生成的后处理。在多视图模型中,通过相邻摄像机之间的信息交换来保证多视图图像的一致性。在时间模型中,我们主要从第一帧的多视图图像中查询后续帧生成中需要注意的信息。我们还引入了本地提示,以有效提高生成实例的质量。在后处理中,我们通过采用时间滑动窗口算法进一步增强后续帧的跨视图一致性并延长视频长度。在没有任何额外成本的情况下,我们的模型可以在复杂的城市场景中生成大规模逼真的多摄像头驾驶视频,为下游驾驶任务提供动力。

OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation
Authors Jie An, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Lijuan Wang, Jiebo Luo
这项工作研究了一项名为开放域交错图像文本生成的挑战性任务,该任务根据输入查询生成交错文本和图像。我们提出了一种新的基于大型语言模型 LLM 和预训练文本到图像 T2I 模型的交错生成框架,即 OpenLEAF。在 OpenLEAF 中,法学硕士生成文本描述、协调 T2I 模型、创建用于生成图像的视觉提示,并将全局上下文合并到 T2I 模型中。这种全局上下文提高了交错生成中图像的实体和风格一致性。对于模型评估,我们首先建议使用大型多模态模型 LMM 来评估开放域交错图像文本序列的实体和风格一致性。根据我们构建的评估集上的 LMM 评估,所提出的交错生成框架可以为各种领域和应用生成高质量的图像文本内容,例如如何回答问题、讲故事、图形故事重写和网页海报生成任务。此外,我们通过人工评估验证了所提出的 LMM 评估技术的有效性。

PointHR: Exploring High-Resolution Architectures for 3D Point Cloud Segmentation
Authors Haibo Qiu, Baosheng Yu, Yixin Chen, Dacheng Tao
最近,利用编码器解码器框架在点云分割方面取得了重大进展,该框架最初将点云编码为低分辨率表示,然后解码高分辨率预测。受到高分辨率架构在图像密集预测中的成功的启发,它在整个学习过程中始终保持高分辨率表示,我们认为它对于 3D 密集点云分析也非常重要。因此,在本文中,我们探索用于 3D 点云分割的高分辨率架构。具体来说,我们使用名为 PointHR 的统一管道来概括高分辨率架构,其中包括用于特征提取的基于 knn 的序列运算符和用于有效传达不同分辨率的差分重采样运算符。此外,我们建议通过预先计算序列和重采样运算符的索引来避免高分辨率架构的大量动态计算。通过这样做,我们可以提供极具竞争力的高分辨率架构,同时充分利用精心设计的点云块的优势,而无需额外的努力。为了评估这些架构的密集点云分析,我们使用 S3DIS 和 ScanNetV2 数据集进行了彻底的实验,其中提出的 PointHR 优于最新的最先进方法,没有任何附加功能。

Domain-Controlled Prompt Learning
Authors Qinglong Cao, Zhengqin Xu, Yuantian Chen, Chao Ma, Xiaokang Yang
当提供适当的文本提示时,大型预训练视觉语言模型(例如 CLIP)在各种任务中显示出卓越的泛化能力。然而,将这些模型适应专业领域,如遥感图像 RSI、医学图像等,仍然未经探索且具有挑战性。现有的即时学习方法通​​常缺乏领域意识或领域转移机制,导致由于对自然图像模式中的专门图像的误解而导致性能不佳。为了解决这个困境,我们提出了针对专业领域的领域控制即时学习。具体来说,首先引入大规模专业领域基础模型LSDM来提供必要的专业领域知识。使用轻量级神经网络,我们将这些知识转化为领域偏差,它控制视觉和语言分支,以直接合并的方式获得领域自适应提示。同时,为了克服现有的过度拟合挑战,我们提出了一种新颖的噪声添加策略,无需额外的可训练参数,以帮助模型以全局域振荡的方式摆脱次优解。实验结果表明,我们的方法在专业领域图像识别数据集中实现了最先进的性能。

Deep Learning based Systems for Crater Detection: A Review
Authors Atal Tewari, K Prateek, Amrita Singh, Nitin Khanna
陨石坑是行星表面最显着的特征之一,用于年龄估计、危险检测和航天器导航等应用。由于各个方面的原因,陨石坑检测是一个具有挑战性的问题,包括复杂的陨石坑特征,例如不同的大小和形状、数据分辨率和行星数据类型。与其他计算机视觉任务类似,基于深度学习的方法近年来对弹坑检测研究产生了重大影响。本次调查旨在通过研究基于深度学习的弹坑检测算法 CDA 的开发来帮助该领域的研究人员。该评论包括 140 多项研究工作,涵盖各种陨石坑检测方法,包括行星数据、陨石坑数据库和评估指标。具体来说,我们讨论了由于陨石坑的复杂特性而导致的陨石坑检测面临的挑战,并通过将它们分为三部分来调查基于深度学习的 CDA:a 基于语义分割、b 基于对象检测和 c 基于分类。此外,我们还在通用数据集上对所有基于语义分割的 CDA 进行了训练和测试,以评估每种架构在弹坑检测方面的有效性及其潜在应用。

Towards the Vulnerability of Watermarking Artificial Intelligence Generated Content
Authors Guanlin Li, Yifei Chen, Jie Zhang, Jiwei Li, Shangwei Guo, Tianwei Zhang
人工智能生成的内容 AIGC 在社交媒体上越来越受欢迎,并提供许多商业服务。这些服务利用先进的生成模型,例如潜在扩散模型和大型语言模型,为用户生成创意内容,例如逼真的图像、流畅的句子。

Universal Visual Decomposer: Long-Horizon Manipulation Made Easy
Authors Zichen Zhang, Yunshuang Li, Osbert Bastani, Abhishek Gupta, Dinesh Jayaraman, Yecheng Jason Ma, Luca Weihs
现实世界的机器人任务延伸到更广阔的视野并包含多个阶段。然而,学习长期操作任务是一个长期存在的挑战,需要将总体任务分解为几个可管理的子任务,以促进策略学习和对看不见的任务的泛化。先前的任务分解方法需要特定于任务的知识,计算量大,并且不能轻易应用于新任务。为了解决这些缺点,我们提出了通用视觉分解器 UVD,这是一种现成的任务分解方法,使用专为机器人控制设计的预先训练的视觉表示来进行视觉长视野操作。在较高层面上,UVD 通过检测预训练表示的嵌入空间中的相移来发现子目标。 UVD 纯粹基于视觉演示而无需辅助信息,可以有效地提取视频中嵌入的视觉子目标,同时在标准视觉运动策略培训之上产生零额外培训成本。通过 UVD 学习的目标条件策略发现,子目标在测试时对未见过的任务表现出显着改善的组合泛化。此外,UVD 发现子目标可用于构建基于目标的奖励塑造,从而启动强化学习的临时扩展探索。我们在模拟和现实世界任务上广泛评估了 UVD,并且在所有情况下,UVD 在域内和域外任务序列上的模仿和强化学习设置上都远远优于基线,验证了简单的自动视觉任务分解的明显优势。

Learning to Act from Actionless Videos through Dense Correspondences
Authors Po Chen Ko, Jiayuan Mao, Yilun Du, Shao Hua Sun, Joshua B. Tenenbaum
在这项工作中,我们提出了一种构建基于视频的机器人策略的方法,该策略能够通过少量视频演示在不同的机器人和环境中可靠地执行各种任务,而无需使用任何动作注释。我们的方法利用图像作为与任务无关的表示,对状态和动作信息进行编码,并利用文本作为指定机器人目标的通用表示。通过合成使机器人执行动作产生幻觉的视频,并结合帧之间的密集对应关系,我们的方法可以推断出要在环境中执行的封闭式动作,而不需要任何明确的动作标签。这种独特的功能使我们能够仅基于 RGB 视频来训练策略,并将学习到的策略部署到各种机器人任务中。我们展示了我们的方法在学习桌面操作和导航任务策略方面的有效性。

Unsupervised Learning of Object-Centric Embeddings for Cell Instance Segmentation in Microscopy Images
Authors Steffen Wolf, Manan Lalit, Henry Westmacott, Katie McDole, Jan Funke
许多生物医学应用都需要对显微图像中的对象进行分割。我们引入了以对象为中心的嵌入 OCE,它嵌入图像块,以便保留从同一对象裁剪的块之间的空间偏移。这些学习到的嵌入可用于描绘单个对象,从而获得实例分割。在这里,我们从理论上证明,在显微镜图像中常见的假设下,可以通过预测图像块之间的空间偏移的自监督任务来学习 OCE。总之,这形成了一种无监督的细胞实例分割方法,我们在九个不同的大规模显微镜数据集上对其进行了评估。与九个数据集中的六个数据集的最新基线相比,使用我们的方法获得的分割结果显着改善,并且在其余三个数据集上的表现相当。如果地面实况注释可用,我们的方法可以作为监督训练的一个很好的起点,将所需的地面实况数量减少一个数量级,从而大大提高我们方法的实际适用性。

Can We Edit Multimodal Large Language Models?
Authors Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang
在本文中,我们重点关注编辑多模态大型语言模型 MLLM。与编辑单模态法学硕士相比,多模态模型编辑更具挑战性,需要在编辑过程中进行更高水平的审查和仔细考虑。为了促进这一领域的研究,我们构建了一个名为 MMEdit 的新基准,用于编辑多模式法学硕士并建立一套创新的评估指标。我们进行了涉及各种模型编辑基线的综合实验,并分析了编辑不同组件对多模式法学硕士的影响。根据经验,我们注意到以前的基线可以在一定程度上实现多模态 LLM 的编辑,但效果仍然差强人意,这表明这项任务的潜在难度。

Towards Design and Development of an ArUco Markers-Based Quantitative Surface Tactile Sensor
Authors Ozdemir Can Kara, Charles Everson, Farshid Alambeigi
在本文中,为了量化基于视觉的触觉传感器 VTS 的定性图像输出,我们介绍了一种称为 QS TS 的新型定量表面触觉传感器的设计、制造和表征。 QS TS 直接实时估计传感器的凝胶层变形,从而能够使用机器人操纵器对精致物体进行安全、自主的触觉操作和伺服。该传感器的核心是利用微型 1.5 毫米 x 1.5 毫米合成方形标记,具有内部二进制图案和宽黑色边框,称为 ArUco 标记。每个 ArUco 标记都可以提供实时相机姿态估计,在我们的设计中,该估计用作获得 QS TS 凝胶层变形的定量测量。此外,由于使用了 ArUco 标记,我们提出了一种独特的制造程序,可以减轻与现有基于标记的 VTS 的制造相关的各种挑战,并为 VTS 的构建提供直观且不那么费力的方法。值得注意的是,所提出的制造有利于标记与凝胶层的集成和粘附,从而无论 ArUco 标记的方向如何,都能实时可靠地获得变形的定量测量。我们对所提出的 QS TS 在估计传感器凝胶层变形方面的性能和功效进行了实验评估和验证。

MCU: A Task-centric Framework for Open-ended Agent Evaluation in Minecraft
Authors Haowei Lin, Zihao Wang, Jianzhu Ma, Yitao Liang
为了实现在 Minecraft(一个具有无限可能性的开放式游戏环境)中创建开放式代理的目标,本文引入了一种名为 MCU 的以任务为中心的框架,用于 Minecraft 代理评估。 MCU 框架利用原子任务的概念作为基本构建块,从而能够生成多种甚至任意任务。在 MCU 框架内,每个任务都用六个不同的难度分数来衡量:时间消耗、操作工作量、规划复杂性、复杂性、创造力、新颖性。这些分数从不同角度对任务进行多维度评估,从而可以揭示代理在特定方面的能力。难度分数也作为每个任务的特征,它创建了一个有意义的任务空间并揭示了任务之间的关系。为了有效评估采用 MCU 框架的 Minecraft 代理,我们维护了一个统一的基准,即 SkillForge,其中包含具有不同类别和难度分布的代表性任务。我们还为用户提供方便的过滤器来选择任务来评估代理的特定能力。

A Generic Software Framework for Distributed Topological Analysis Pipelines
Authors Eve Le Guillou, Michael Will, Pierre Guillou, Jonas Lukasczyk, Pierre Fortin, Christoph Garth, Julien Tierny
本系统论文提出了一个支持分布式内存模型中的拓扑分析管道的软件框架。虽然最近的几篇论文介绍了用于分布式内存环境的基于拓扑的方法,但这些论文报告的是通过定制的单一算法实现获得的实验。相比之下,我们在本文中描述了拓扑分析管道的通用通用框架,即可能在不同数量的进程上相互作用的一系列拓扑算法。具体来说,我们在拓扑工具包 TTK 中使用 MPI 模型实例化了我们的框架。在开发这个框架时,我们面临着一些算法和软件工程挑战,我们在本文中记录了这些挑战。我们根据 TTK 支持的分布式内存拓扑算法的通信需求提供了分类,并提供了混合 MPI 线程并行化的示例。详细的性能分析表明,并行效率范围从 20 到 80,具体取决于算法,并且我们的框架引入的 MPI 特定预处理导致的计算时间开销可以忽略不计。我们通过高级分析管道的示例来说明 TTK 的新分布式内存功能,结合多种算法,在最大的公开可用数据集上运行,我们在标准集群上发现了 1200 亿个顶点,该集群有 64 个节点,总共 1,536 个核心。

Defending Our Privacy With Backdoors
Authors Dominik Hintersdorf, Lukas Struppek, Daniel Neider, Kristian Kersting
基于未经整理的、通常敏感的网络抓取数据进行训练的大型人工智能模型的激增引发了严重的隐私问题。担忧之一是对手可以利用隐私攻击提取有关训练数据的信息。不幸的是,在不牺牲性能的情况下从模型中删除特定信息的任务并不简单,并且已被证明具有挑战性。我们提出了一种基于后门攻击的相当简单而有效的防御方法,以删除模型中的个人姓名等私人信息,并将这项工作的重点放在文本编码器上。具体来说,通过策略性地插入后门,我们将敏感短语的嵌入与中性术语(人而不是人名)的嵌入对齐。我们的实证结果通过使用针对零样本分类器的专门隐私攻击来评估其性能,证明了我们基于后门的 CLIP 防御的有效性。

Invisible Threats: Backdoor Attack in OCR Systems
Authors Mauro Conti, Nicola Farronato, Stefanos Koffas, Luca Pajola, Stjepan Picek
光学字符识别 OCR 是一种广泛使用的工具,用于从扫描文档中提取文本。如今,最先进的技术是通过利用深度神经网络来实现的。然而,这种性能的代价是以系统漏洞为代价的。例如,在后门攻击中,攻击者通过在受害者模型中插入后门来破坏训练阶段,该后门将在测试时通过特定模式激活,同时保持整体模型性能完好无损。这项工作提出了一种 OCR 后门攻击,导致从恶意输入图像中注入不可读的字符。这种简单但有效的攻击暴露了最先进的 OCR 弱点,使得提取的文本对于人眼来说是正确的,但同时无法用于使用 OCR 作为预处理步骤的 NLP 应用程序。

TriRE: A Multi-Mechanism Learning Paradigm for Continual Knowledge Retention and Promotion
Authors Preetha Vijayan, Prashant Bhat, Elahe Arani, Bahram Zonooz
由于对先前学习任务的灾难性遗忘,持续学习 CL 仍然是深度神经网络面临的持续挑战。人们提出了权重正则化、经验演练和参数隔离等多种技术来缓解 CF。尽管取得了相对成功,但这些研究方向主要仍然是正交的,并且存在一些缺点,同时错过了竞争策略的优势。相反,大脑通过同时利用多种神经生理过程,包括神经发生、主动遗忘、神经调节、化塑性、经验演练和情境依赖门控,不断学习、适应和跨任务转移知识,很少导致 CF。受大脑如何同时利用多种机制的启发,我们提出了 TriRE,这是一种新颖的 CL 范式,包括为每个任务保留最突出的神经元,修改和巩固当前和过去任务的提取知识,并积极促进不太活跃的神经元用于后续任务通过倒带和重新学习。

Improving Fast Minimum-Norm Attacks with Hyperparameter Optimization
Authors Giuseppe Floris, Raffaele Mura, Luca Scionis, Giorgio Piras, Maura Pintor, Ambra Demontis, Battista Biggio
使用基于梯度的攻击评估机器学习模型的对抗鲁棒性具有挑战性。在这项工作中,我们证明超参数优化可以通过自动选择损失函数、优化器和步长调度器以及相应的超参数来改进快速最小范数攻击。我们对几个强大模型的广泛评估表明,当超参数优化达到极限时,快速最小范数攻击的功效得到了提高。

COVID-19 Detection Using Swin Transformer Approach from Computed Tomography Images
Authors Kenan Morani
对 COVID 19 的准确有效诊断至关重要,特别是在大规模医学成像数据集的背景下。在这篇预印本论文中,我们提出了一种使用 CT 图像进行 COVID 19 诊断的新方法,该方法利用了 Swin Transformer 模型的强大功能,这是计算机视觉任务中最先进的解决方案。我们的方法包括用于患者级别预测的系统方法,其中单个 CT 切片被分类为 COVID 19 或非 COVID,并且患者的总体诊断是通过多数投票确定的。 Swin Transformer 在这种情况下的应用可实现患者级别的预测,显示出卓越的诊断准确性。在评估指标方面,我们的方法始终优于基线以及众多竞争方法,展示了其在 COVID 19 诊断中的有效性。

Multimodal Active Measurement for Human Mesh Recovery in Close Proximity
Authors Takahiro Maeda, Keisuke Takeshita, Kazuhito Tanaka
为了实现安全且复杂的人类机器人物理交互 pHRI,机器人需要估计目标人的准确身体姿势或网格。然而,在这些 pHRI 场景中,机器人无法通过配备的摄像头充分观察目标人的身体,因为目标人通常距离机器人很近。这会导致严重的截断和遮挡,并导致人体姿态估计的准确性较差。为了在来自相机的有限信息上提高人体姿势估计或网格恢复的准确性,我们提出了配备的相机和其他传感器(例如触摸传感器和 2D LiDAR)的主动测量和传感器融合框架。这些触摸和 LiDAR 传感是通过 pHRI 获得的,无需额外成本。这些传感器测量结果虽然稀疏,但为人体网格恢复提供了可靠且信息丰富的线索。在我们的主动测量过程中,相机视点和传感器放置是根据估计位姿的不确定性进行优化的,这与截断或遮挡区域密切相关。在我们的传感器融合过程中,我们通过最小化估计网格和测量位置之间的距离,将传感器测量结果融合到基于相机的估计姿态。我们的方法与机器人配置无关。实验是使用丰田人类支持机器人进行的,该机器人在机器人手臂上配有摄像头、2D LiDAR 和触摸传感器。我们提出的方法在定量比较中证明了人体姿态估计精度的优越性。

RT-SRTS: Angle-Agnostic Real-Time Simultaneous 3D Reconstruction and Tumor Segmentation from Single X-Ray Projection
Authors Miao Zhu, Qiming Fu, Bo Liu, Mengxi Zhang, Bojian Li, Xiaoyan Luo, Fugen Zhou
放射治疗是肿瘤的主要治疗方法之一,但呼吸运动引起的器官运动限制了其准确性。最近,单 X 射线投影 3D 成像作为解决这一问题的一种有希望的方法受到了广泛的关注。然而,目前的方法只能重建3D图像,不能直接定位肿瘤,并且仅针对固定角度成像进行验证,无法完全满足放射治疗中运动控制的要求。在本研究中,我们提出了一种新颖的成像方法RT SRTS,该方法基于多任务学习MTL将3D成像和肿瘤分割集成到一个网络中,并从任意角度的单个X射线投影实现实时同步3D重建和肿瘤分割。此外,我们提出了注意力增强校准器 AEC 和不确定区域细化 URE 模块来帮助特征提取并提高分割精度。我们对十个患者病例评估了所提出的方法,并将其与两种最先进的方法进行了比较。我们的方法不仅提供了卓越的 3D 重建,而且还展示了值得称赞的肿瘤分割结果。同时重建和分割可以在大约 70 毫秒内完成,明显快于实时肿瘤跟踪所需的时间阈值。

Samples on Thin Ice: Re-Evaluating Adversarial Pruning of Neural Networks
Authors Giorgio Piras, Maura Pintor, Ambra Demontis, Battista Biggio
神经网络修剪已被证明是一种减少网络规模的有效技术,可以用泛化性和对抗性攻击的鲁棒性等理想特性来换取更高的稀疏性。最近的研究表明,对抗性剪枝方法可以产生稀疏网络,同时还能保持对抗性示例的鲁棒性。在这项工作中,我们首先重新评估了三种最先进的对抗性剪枝方法,表明它们的鲁棒性确实被高估了。然后,我们比较同一模型的剪枝版本和密集版本,发现薄冰上的样本(即更接近未剪枝模型的决策边界)在剪枝后通常会被错误分类。

Learning Transferable Conceptual Prototypes for Interpretable Unsupervised Domain Adaptation
Authors Junyu Gao, Xinhong Ma, Changsheng Xu
尽管深度神经网络的无监督域适应 UDA 取得了巨大进展,但当前的 UDA 模型是不透明的,无法提供有希望的解释,限制了其在需要安全可控模型决策的场景中的应用。目前,大量的工作集中在设计具有足够数据注释的深度可解释方法,只有少数方法考虑了分布偏移问题。大多数现有的可解释 UDA 方法都是事后方法,无法促进模型学习过程以提高性能。在本文中,我们提出了一种本质上可解释的方法,称为可迁移概念原型学习 TCPL,它可以同时解释和改进 UDA 中的知识迁移和决策过程。为了实现这一目标,我们设计了一个分层原型模块,将分类基本概念从源域转移到目标域,并学习域共享原型以解释底层推理过程。利用学习到的可转移原型,设计了一种融合置信度、预测和原型信息的自我预测一致伪标签策略,用于选择合适的目标样本进行伪注释并逐渐缩小领域差距。

Frequency-Aware Re-Parameterization for Over-Fitting Based Image Compression
Authors Yun Ye, Yanjie Pan, Qually Jiang, Ming Lu, Xiaoran Fang, Beryl Xu
基于过拟合的图像压缩需要压缩权重紧凑和实际使用中的快速收敛,这对基于深度卷积神经网络 CNN 的方法提出了挑战。本文提出了一种简单的重新参数化方法来训练 CNN,减少权重存储并加速收敛。卷积核被重新参数化为离散余弦变换 DCT 核的加权和,从而能够在频域中进行直接优化。与 L1 正则化相结合,所提出的方法通过以较低的计算成本实现了显着改善的率失真,从而超越了普通卷积。

Continual Learning via Manifold Expansion Replay
Authors Zihao Xu, Xuan Tang, Yufei Shi, Jianfeng Zhang, Jian Yang, Mingsong Chen, Xian Wei
在持续学习中,学习者按顺序学习多个任务,每个任务仅获取一次数据。灾难性遗忘是持续学习的重大挑战。为了减少遗忘,一些现有的基于排练的方法使用情景记忆来重放先前任务的样本。然而,在学习新任务时的知识整合过程中,该策略也会由于新旧知识的不平衡而遭受灾难性遗忘。为了解决这个问题,我们提出了一种称为 Manifold Expansion Replay MaER 的新颖重放策略。我们认为,扩展情景记忆中知识表示的隐式流形有助于提高模型的鲁棒性和表达能力。为此,我们提出了一种贪婪策略,在内存管理过程中不断增加缓冲区中的知识所表示的隐式流形的直径。此外,我们引入 Wasserstein 距离而不是交叉熵作为蒸馏损失,以保留先前的知识。

Exploring Large Language Models for Multi-Modal Out-of-Distribution Detection
Authors Yi Dai, Hao Lang, Kaisheng Zeng, Fei Huang, Yongbin Li
分布式 OOD 检测对于可靠且值得信赖的机器学习至关重要。最近的多模式 OOD 检测利用分布 ID 类名称中的文本信息进行视觉 OOD 检测,但目前忽略了 ID 类的丰富上下文信息。大型语言模型 LLM 编码了丰富的世界知识,并且可以提示为每个类别生成描述性特征。正如我们的分析所观察到的,由于法学硕士的幻觉,不加区别地使用这些知识会对 OOD 检测造成灾难性的损害。在本文中,我们建议通过法学硕士的选择性生成来应用世界知识来增强 OOD 检测性能。具体来说,我们引入了一种基于一致性的不确定性校准方法来估计每一代的置信度得分。我们进一步从每个图像中提取视觉对象,以充分利用上述世界知识。

MLP-AMDC: An MLP Architecture for Adaptive-Mask-based Dual-Camera snapshot hyperspectral imaging
Authors Zeyu Cai, Can Zhang, Xunhao Chen, Shanghuan Liu, Chengqian Jin, Feipeng Da
编码孔径快照光谱成像CASSI系统在动态获取高光谱图像HSI方面较传统方法具有巨大优势,但也存在以下问题。 1 传统掩模依赖于随机图案或分析设计,这两者都限制了CASSI的性能提升。 2 现有的高质量重建算法重建速度慢,只能离线重建场景信息。针对上述两个问题,本文设计了AMDC CASSI系统,引入基于Adaptive Mask的CASSI RGB相机作为多模态输入,以提高重建质量。现有的SOTA重构方案都是基于Transformer,但自注意力的运行拉低了网络的运行效率。为了提高重建网络的推理速度,本文提出了An MLP Architecture for Adaptive Mask based Dual Camera MLP AMDC来代替网络的transformer结构。大量实验表明,MLP 在 HSI 重建方面的性能不亚于基于 Transformer 的结构,同时 MLP 极大地提高了网络推理速度并且参数和操作数量更少,我们的方法比 SOTA 提高了 8 db,至少提高了 5 倍

Reset It and Forget It: Relearning Last-Layer Weights Improves Continual and Transfer Learning
Authors Lapo Frati, Neil Traft, Jeff Clune, Nick Cheney
这项工作确定了一种简单的预训练机制,可以使表征表现出更好的持续学习和迁移学习。这种机制是在最后一层中重复重置权重,我们将其昵称为“zapping”,最初是为元持续学习过程而设计的,但我们发现它令人惊讶地适用于元学习和持续学习之外的许多设置。在我们的实验中,我们希望在几个镜头中将预先训练的图像分类器转移到一组新的类中。我们表明,我们的切换过程可以提高传输精度,或者在标准微调和持续学习设置中实现更快的适应,同时实现简单且计算效率高。在许多情况下,通过结合使用切换和顺序学习,我们可以实现与最先进的元学习相当的性能,而无需昂贵的高阶梯度。对于这种切换过程的有效性的直观解释是,通过重复切换训练的表示学习能够快速适应新初始化的分类器的特征。这种方法可以被认为是一种计算成本较低的类型,或者是具有高阶梯度的元学习快速适应特征的替代方法。

What Matters to You? Towards Visual Representation Alignment for Robot Learning
Authors Ran Tian, Chenfeng Xu, Masayoshi Tomizuka, Jitendra Malik, Andrea Bajcsy
在为人类服务时,机器人需要根据最终用户的偏好来优化奖励。由于机器人将依赖于 RGB 图像等原始感知输入,因此它们的奖励将不可避免地使用视觉表示。最近,人们对使用预先训练的视觉模型的表示感到兴奋,但在机器人技术中进行这些工作的关键是微调,这通常是通过动态预测或强制时间循环一致性等代理任务来完成的。然而,所有这些代理任务都绕过了人类对对他们来说重要的事情的输入,加剧了虚假相关性,并最终导致机器人行为与用户偏好不一致。在这项工作中,我们建议机器人应该利用人类反馈来使它们的视觉表示与最终用户保持一致,并理清对任务重要的内容。我们提出了基于表示对齐偏好的学习 RAPL,这是一种通过基于偏好的学习和最优传输的视角来解决视觉表示对齐问题和视觉奖励学习问题的方法。

D2 Pruning: Message Passing for Balancing Diversity and Difficulty in Data Pruning
Authors Adyasha Maharana, Prateek Yadav, Mohit Bansal
分析理论表明,在固定数据预算上训练的模型中,更高质量的数据可以降低测试错误。此外,如果可以去除数据集的冗余,则可以在较低的计算预算上训练模型,而不会影响性能。核心集选择或数据修剪旨在选择训练数据的子集,以便最大化在该子集(也称为核心集)上训练的模型的性能。有两种主要方法:1 基于几何的数据选择,用于最大化核心集中的数据多样性;2 函数,根据训练动态为样本分配难度分数。针对数据多样性进行优化会导致核心集偏向于更简单的样本,而按难度排名进行选择会忽略深度学习模型训练所需的简单样本。这表明数据多样性和重要性得分是核心集选择过程中需要共同考虑的两个互补因素。我们将数据集表示为无向图,并提出了一种新颖的修剪算法 D2 修剪,该算法使用在该数据集图上传递的前向和反向消息来进行核心集选择。 D2 剪枝通过将数据集中相邻示例的难度合并起来来更新每个示例的难度分数。然后,这些更新的难度分数指导基于图的采样方法来选择封装数据集空间的多样化和困难区域的核心集。我们在各种视觉和语言数据集上评估我们方法的监督和自监督版本。结果表明,与之前最先进的方法相比,D2 剪枝改进了核心集选择,剪枝率高达 70。

NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration
Authors Ajay Sridhar, Dhruv Shah, Catherine Glossop, Sergey Levine
在陌生环境中进行导航的机器人学习需要为面向任务的导航(即达到机器人已定位的目标)和与任务无关的探索(即在新的环境中搜索目标)提供策略。通常,这些角色由单独的模型处理,例如通过使用子目标建议、规划或单独的导航策略。在本文中,我们描述了如何训练单个统一扩散策略来处理目标定向导航和目标不可知探索,后者提供搜索新环境的能力,而前者提供一次达到用户指定目标的能力它已被定位。我们表明,与使用生成模型的子目标建议的方法或基于潜在变量模型的先前方法相比,在新环境中导航到视觉指示的目标时,这种统一的策略会带来更好的整体性能。我们通过使用基于来自多个地面机器人的数据训练的大规模 Transformer 策略来实例化我们的方法,并使用扩散模型解码器来灵活处理目标条件导航和目标不可知导航。我们的实验是在现实世界的移动机器人平台上进行的,与五种替代方法相比,显示了在看不见的环境中的有效导航,并展示了性能的显着改进和更低的碰撞率,尽管使用的模型比最先进的方法更小。

Efficient Integrators for Diffusion Generative Models
Authors Kushagra Pandey, Maja Rudolph, Stephan Mandt
扩散模型在推理时会遇到样本生成缓慢的问题。因此,为更广泛的扩散模型类别开发快速确定性随机采样的原则框架是一个有前途的方向。我们提出了两个互补的框架,用于加速预训练模型共轭积分器和分裂积分器中的样本生成。共轭积分器推广了 DDIM,将反向扩散动力学映射到更适合采样的空间。相比之下,分子动力学中常用的基于分裂的积分器通过巧妙地交替涉及数据和辅助变量的数值更新来减少数值模拟误差。在对这些方法进行了实证和理论上的广泛研究之后,我们提出了一种混合方法,可以为增强空间中的扩散模型带来最佳的报告性能。应用于 CIFAR 10 上的相空间 Langevin 扩散 Pandey Mandt,2023 年,我们的确定性和随机采样器仅在 100 次网络功能评估 NFE 中就获得了 2.11 和 2.36 的 FID 分数,而最佳性能基线的 FID 分数分别为 2.57 和 2.63。

Unsupervised Structured Noise Removal with Variational Lossy Autoencoder
Authors Benjamin Salmon, Alexander Krull
大多数无监督去噪方法基于这样的假设:成像噪声要么与像素无关,即空间不相关,要么与信号无关,即纯相加。然而,在实践中,许多成像设置,特别是在显微镜中,都会受到信号相关噪声的影响,例如噪声。泊松散粒噪声和轴对齐相关噪声,例如条形扫描或读出伪影。在本文中,我们提出了第一个基于无监督深度学习的降噪器,它可以消除这种类型的噪声,而无需访问任何干净的图像或噪声模型。与自监督技术不同,我们的方法不依赖于通过掩蔽或子采样来删除像素,因此可以利用所有可用信息。我们使用专门设计的自回归解码器实现了变分自编码器 VAE,该解码器能够对图像的噪声分量进行建模,但无法独立对底层的干净信号分量进行建模。因此,我们的 VAE 编码器学会仅对底层干净信号内容进行编码并丢弃成像噪声。我们还提出了一个额外的解码器,用于将编码器的潜在变量映射回图像空间,从而对去噪图像进行采样。实验结果表明,我们的方法超越了现有的自监督和无监督图像去噪方法,同时在自回归感受野的大小方面具有鲁棒性。

Explorable Mesh Deformation Subspaces from Unstructured Generative Models
Authors Arman Maesumi, Paul Guerrero, Vladimir G. Kim, Matthew Fisher, Siddhartha Chaudhuri, Noam Aigerman, Daniel Ritchie
在传统 3D 建模工具中,探索 3D 形状的变化是一个耗时的过程。 3D 形状的深度生成模型通常具有连续的潜在空间,原则上可以用于从一组输入形状开始探索潜在的变化。在实践中,这样做可能会出现问题:潜在空间维度高且难以可视化,包含与输入形状不相关的形状,并且通过它们的线性路径通常会导致次优形状转换。此外,理想情况下,人们能够探索用于训练生成模型的原始高质量网格的变化,而不是其较低质量的输出几何体。在本文中,我们提出了一种方法,通过构建从易于导航的二维探索空间到预先训练的生成模型的子空间的映射来探索给定的一组地标形状之间的变化。我们首先描述如何找到跨越输入地标形状集并在它们之间表现出平滑变化的映射。然后,我们展示如何将该子空间中的变化转化为变形场,将这些变化转移到地标形状的高质量网格中。

Extreme Image Transformations Facilitate Robust Latent Object Representations
Authors Girik Malik, Dakarai Crowder, Ennio Mingolla
对抗性攻击会影响野外机器的物体识别能力。这些通常是由输入和类标签之间的虚假相关性产生的,并且很容易在大型网络中被记忆。虽然网络有望进行自动特征选择,但它在对象规模上并不有效。然而,人类能够选择形成对象的鲁棒表示所需的最小特征集。在这项工作中,我们表明,使用 Extreme Image Transformations EIT 微调任何预训练的现成网络不仅有助于学习强大的潜在表示,还可以提高这些网络针对各种强度的常见对抗性攻击的性能。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(计算机视觉,Papers,视觉,计算机视觉,度量学习,缺陷检测,新视角合成,扩散模型,遥感,点云学习)