【AI视野·今日CV 计算机视觉论文速览 第250期】Wed, 20 Sep 2023

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 20 Sep 2023
Totally 95 papers
上期速览✈更多精彩请移步主页

【AI视野·今日CV 计算机视觉论文速览 第250期】Wed, 20 Sep 2023_第1张图片

Daily Computer Vision Papers

PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes
Authors Xiao Fu, Shangzhan Zhang, Tianrun Chen, Yichong Lu, Xiaowei Zhou, Andreas Geiger, Yiyi Liao
训练自动驾驶汽车的感知系统需要大量注释。然而,二维图像中的手动标记是高度劳动密集型的。虽然现有数据集为预先记录的序列提供了丰富的注释,但它们在标记很少遇到的观点方面存在不足,可能会阻碍感知模型的泛化能力。在本文中,我们提出了 PanopticNeRF 360,这是一种新颖的方法,它将粗略的 3D 注释与嘈杂的 2D 语义线索相结合,从任何角度生成一致的全景标签和高质量图像。我们的主要见解在于利用 3D 和 2D 先验的互补性来相互增强几何和语义。具体来说,我们建议利用 3D 和 2D 空间中的噪声语义和实例标签来指导几何优化。同时,改进的几何结构通过学习的语义场将 3D 和 2D 注释合并到 3D 空间中,有助于过滤 3D 和 2D 注释中存在的噪声。为了进一步增强外观,我们结合 MLP 和哈希网格来产生混合场景特征,在高频外观和主要连续语义之间取得平衡。我们的实验证明,在 KITTI 360 数据集的具有挑战性的城市场景中,PanopticNeRF 360 的性能优于现有标签传输方法。此外,PanopticNeRF 360 能够实现高保真、多视图和时空一致的外观、语义和实例标签的全方位渲染。

PGDiff: Guiding Diffusion Models for Versatile Face Restoration via Partial Guidance
Authors Peiqing Yang, Shangchen Zhou, Qingyi Tao, Chen Change Loy
利用预先训练的扩散模型进行恢复最近已成为传统任务特定训练方法的首选替代方案。以前的工作通过使用显式退化模型限制解决方案空间取得了显着的成功。然而,这些方法在面对复杂的退化时往往会出现不足,因为它们通常无法精确建模。在本文中,我们通过引入部分指导来提出 PGDiff,这是一种比现有作品更适应现实世界退化的新视角。我们的方法不是专门定义退化过程,而是对所需的属性进行建模,例如高质量图像的图像结构和颜色统计,并在反向扩散过程中应用此指导。这些属性很容易获得,并且不对降解过程做出任何假设。当与扩散先验相结合时,这种部分指导可以在一系列恢复任务中提供有吸引力的结果。此外,PGDiff 可以扩展为通过整合多个高质量图像属性来处理复合任务,这是通过集成各个任务的指导来实现的。

Language as the Medium: Multimodal Video Classification through text only
Authors Laura Hanu, Anita L. Ver , James Thewlis
尽管多模态机器学习模型出现了令人兴奋的新浪潮,但当前的方法仍然难以解释视频中存在的不同模态之间复杂的上下文关系。超越强调简单活动或对象的现有方法,我们提出了一种新的模型不可知方法,用于生成捕获多模态视频信息的详细文本描述。我们的方法利用大型语言模型(例如 GPT 3.5 或 Llama2)学到的广泛知识来推理从 BLIP 2、Whisper 和 ImageBind 获得的视觉和听觉模态的文本描述。无需对视频文本模型或数据集进行额外的微调,我们证明可用的法学硕士能够使用这些多模态文本描述作为视觉或听觉的代理,并在上下文中对视频进行零样本多模态分类。我们对流行的动作识别基准(例如 UCF 101 或 Kinetics)的评估表明,这些上下文丰富的描述可以成功地用于视频理解任务。

MAGIC-TBR: Multiview Attention Fusion for Transformer-based Bodily Behavior Recognition in Group Settings
Authors Surbhi Madan, Rishabh Jain, Gulshan Sharma, Ramanathan Subramanian, Abhinav Dhall
身体行为语言是一种重要的社交线索,其自动分析有助于增强对人工智能系统的理解。此外,行为语言线索对于积极参与基于社交代理的用户交互至关重要。尽管计算机视觉在头部和身体姿势估计等任务方面取得了进展,但仍然需要探索对手势、梳理或摸索等更精细行为的检测。本文提出了一种名为 MAGIC TBR 的多视图注意力融合方法,该方法通过基于变压器的方法将从视频中提取的特征及其相应的离散余弦变换系数结合起来。实验在 BBSI 数据集上进行,结果证明了所提出的多视图注意力特征融合的有效性。

SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction
Authors Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Fabien Baradel, Salma Galaaoui, Romain Bregier, Matthieu Armando, Jean Sebastien Franco, Gregory Rogez
最近的手部对象交互数据集显示真实对象的可变性有限,并且依赖于拟合 MANO 参数模型来获得真实的手部形状。为了超越这些限制并促进进一步的研究,我们引入了 SHOWMe 数据集,该数据集由 96 个视频组成,并用真实且详细的手部对象 3D 纹理网格进行注释。在最近的工作之后,我们考虑了一个刚性手对象场景,其中手相对于对象的姿势在整个视频序列期间保持不变。这一假设使我们能够将亚毫米级精确的地面实况 3D 扫描注册到 SHOWMe 中的图像序列。尽管更简单,但该假设对于所需的准确性和详细程度很重要的应用而言是有意义的,例如人类机器人协作中的对象移交、对象扫描或操纵和接触点分析。重要的是,手持物体系统的刚性允许使用由刚性配准步骤和随后的多视图重建 MVR 部分组成的 2 阶段管道来处理未知手持物体的基于视频的 3D 重建。我们仔细评估了这两个阶段的一组重要基线,并表明使用 SfM 工具箱或手部姿势估计器来恢复刚性变换和现成的 MVR 算法,可以实现有前途的与对象无关的 3D 手部对象重建。然而,这些方法对初始相机姿态估计仍然敏感,由于物体缺乏纹理或手部严重遮挡,初始相机姿态估计可能不精确,从而为重建的改进留下了空间。

Few-Shot Panoptic Segmentation With Foundation Models
Authors Markus K ppeler, K rsat Petek, Niclas V disch, Wolfram Burgard, Abhinav Valada
当前最先进的全景分割方法需要大量带注释的训练数据,获得这些数据既困难又昂贵,对其广泛采用构成了重大挑战。与此同时,视觉表示学习的最新突破引发了范式转变,导致可以使用完全未标记的图像进行训练的大型基础模型的出现。在这项工作中,我们建议利用这种与任务无关的图像特征,通过呈现具有近 0 标签 SPINO 的分割全景信息来实现少量镜头全景分割。具体来说,我们的方法将 DINOv2 主干与轻量级网络头相结合,用于语义分割和边界估计。我们展示了我们的方法,尽管仅使用十个带注释的图像进行训练,但可以预测可与任何现有全景分割方法一起使用的高质量伪标签。值得注意的是,我们证明,与完全监督的基线相比,SPINO 在使用少于 0.3 个真实标签的情况下取得了有竞争力的结果,为利用基础模型学习复杂的视觉识别任务铺平了道路。为了说明其普遍适用性,我们进一步在室外和室内环境的现实世界机器人视觉系统上部署 SPINO。

Causality-Driven One-Shot Learning for Prostate Cancer Grading from MRI
Authors Gianluca Carloni, Eva Pachetti, Sara Colantonio
在本文中,我们提出了一种自动分类医学图像的新方法,该方法可以学习并利用图像中的弱因果信号。我们的框架由一个卷积神经网络主干和一个因果关系提取器模块组成,该模块提取特征图之间的因果关系,可以告知模型在图像的一个位置中存在另一个特征时,该特征在图像的一个位置上的出现情况的图像。为了评估我们的方法在低数据场景中的有效性,我们在一次性学习方案中训练我们的因果驱动架构,其中我们提出了一种新的元学习过程,其中需要元训练和元测试任务,这些任务是使用相关类但在不同级别设计的的粒度。我们对公开可用的前列腺 MRI 图像数据集进行二元和多类分类实验。为了验证所提出的因果驱动模块的有效性,我们进行了消融研究,并使用类激活图进行定性评估,以突出显示强烈影响网络决策过程的区域。我们的研究结果表明,特征之间的因果关系在增强模型辨别相关信息并产生更可靠和可解释的预测的能力方面发挥着至关重要的作用。

Sound Source Localization is All about Cross-Modal Alignment
Authors Arda Senocak, Hyeonggon Ryu, Junsik Kim, Tae Hyun Oh, Hanspeter Pfister, Joon Son Chung
人类可以轻松感知视觉场景中声源的方向,称为声源定位。最近基于学习的声源定位的研究主要从定位的角度探讨了这个问题。然而,现有技术和现有基准没有考虑问题的更重要方面,即跨模态语义理解,这对于真正的声源定位至关重要。跨模态语义理解对于理解语义不匹配的视听事件(例如无声对象或屏幕外声音)非常重要。为了解决这个问题,我们提出了跨模态对齐任务作为与声源定位的联合任务,以更好地学习音频和视觉模态之间的交互。因此,我们通过强大的跨模态语义理解实现了高定位性能。我们的方法在声源定位和跨模态检索方面都优于最先进的方法。

Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image Denoising
Authors Yujin Wang, Lingen Li, Tianfan Xue, Jinwei Gu
图像去噪是计算机视觉领域的一项基本且具有挑战性的任务。大多数监督去噪方法都会学习从噪声输入中重建干净的图像,这些输入具有固有的光谱偏差,并且往往会产生过度平滑和模糊的图像。最近,研究人员探索了扩散模型以在图像恢复任务中生成高频细节,但这些模型不能保证生成的纹理与真实图像对齐,从而导致不良的伪影。为了解决去噪任务中视觉吸引力和高频细节保真度之间的权衡,我们提出了一种称为“重建和生成扩散模型 RnG”的新颖方法。我们的方法利用重建去噪网络来恢复大部分底层干净信号,作为后续步骤保持保真度的初始估计。此外,它还采用扩散算法来生成残留的高频细节,从而提高视觉质量。我们进一步引入了两阶段训练计划,以确保 RnG 的重建模块和生成模块之间的有效协作。为了减少扩散模型引入的不良纹理,我们还提出了一种自适应步骤控制器,它可以调节扩散模型应用的反向步骤的数量,从而可以控制添加到每个补丁的高频细节的水平,并节省推理计算量成本。通过我们提出的 RnG,我们在感知和失真之间实现了更好的平衡。

Interpret Vision Transformers as ConvNets with Dynamic Convolutions
Authors Chong Zhou, Chen Change Loy, Bo Dai
作为计算机视觉模型的支柱,视觉 Transformer 和 ConvNet 之间的优越性一直存在争议。尽管它们通常被认为是两种完全不同的架构,但在本文中,我们将视觉 Transformer 解释为具有动态卷积的 ConvNet,这使我们能够在统一的框架中表征现有 Transformer 和动态 ConvNet,并并排比较它们的设计选择。此外,我们的解释还可以指导网络设计,因为研究人员现在可以从 ConvNet 的设计空间考虑视觉 Transformer,反之亦然。我们通过两项具体研究证明了这种潜力。首先,我们检查了 softmax 在视觉 Transformers 中作为激活函数的作用,发现它可以被常用的 ConvNets 模块(例如 ReLU 和 Layer Normalization)替代,从而获得更快的收敛速度和更好的性能。其次,根据深度卷积的设计,我们创建了一个相应的深度视觉 Transformer,其效率更高,性能相当。

Latent Space Energy-based Model for Fine-grained Open Set Recognition
Authors Wentao Bao, Qi Yu, Yu Kong
细粒度开放集识别 FineOSR 旨在识别属于具有细微外观差异的类别的图像,同时拒绝未知类别的图像。 OSR 的最新趋势显示了生成模型对于判别性未知检测的好处。作为生成模型的一种,基于能量的模型 EBM 具有生成和判别任务混合建模的潜力。然而,大多数现有的 EBM 都受到高维空间中密度估计的困扰,这对于识别细粒度类别的图像至关重要。在本文中,我们探索了细粒度视觉世界中 OSR 的具有基于能量先验分布的低维潜在空间。具体来说,基于潜在空间EBM,我们提出了属性感知信息瓶颈AIB、残差属性特征聚合RAFA模块和基于不确定性的虚拟异常值合成UVOS模块,以提高细粒度样本的表达性、粒度和密度。分别是类。我们的方法可以灵活地利用最新的视觉转换器来进行强大的视觉分类和生成。

ReShader: View-Dependent Highlights for Single Image View-Synthesis
Authors Avinash Paliwal, Brandon Nguyen, Andrii Tsarov, Nima Khademi Kalantari
近年来,由于 3D 场景表示和图像修复技术的快速进步,单个图像的新颖视图合成取得了重大进展。虽然当前的方法能够合成几何上一致的新颖视图,但它们通常不能正确处理视图相关的效果。具体来说,合成图像中的亮点通常看起来粘在表面上,使得新颖的视图不切实际。为了解决这个主要问题,我们进行了一个关键的观察,即合成新视图的过程需要根据新相机改变像素的阴影,并将它们移动到适当的位置。因此,我们建议将视图合成过程分为像素重新着色和重新定位两个独立的任务。在重新着色过程中,我们将单个图像作为输入,并根据新颖的相机调整其着色。然后,将该重新着色的图像用作现有视图合成方法的输入,以重新定位像素并生成最终的新颖视图图像。我们建议使用神经网络来执行重新着色并生成大量合成输入重新着色对来训练我们的网络。

Locally Stylized Neural Radiance Fields
Authors Hong Wing Pang, Binh Son Hua, Sai Kit Yeung
近年来,人们越来越关注在参考风格图像的 3D 场景上应用风格化,特别是在神经辐射场 NeRF 上。虽然直接在 NeRF 上执行风格化可以保证任意新颖视图的外观一致性,但引导模式从风格图像转移到 NeRF 场景的不同部分是一个具有挑战性的问题。在这项工作中,我们提出了一个基于局部风格迁移的 NeRF 风格化框架。特别是,我们使用哈希网格编码来学习外观和几何组件的嵌入,并表明哈希表定义的映射允许我们在一定程度上控制风格化。然后通过优化外观分支同时保持几何分支固定来实现风格化。为了支持局部风格迁移,我们提出了一种新的损失函数,利用分割网络和二分匹配来建立风格图像和从体渲染获得的内容图像之间的区域对应关系。

Learning Tri-modal Embeddings for Zero-Shot Soundscape Mapping
Authors Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs
我们专注于声景映射的任务,其中涉及预测在特定地理位置可以感知到的最可能的声音。我们利用最新的最先进的模型来编码地理标记音频、音频的文本描述以及使用对比预训练的捕获位置的俯视图像。最终结果是三种模式的共享嵌入空间,这使得能够根据文本或音频查询为任何地理区域构建声景图。使用 SoundingEarth 数据集,我们发现我们的方法明显优于现有的 SOTA,图像到音频的召回率 100 从 0.256 提高到 0.450。

Multi-Stain Self-Attention Graph Multiple Instance Learning Pipeline for Histopathology Whole Slide Images
Authors Amaya Gallagher Syed, Luca Rossi, Felice Rivellese, Costantino Pitzalis, Myles Lewis, Michael Barnes, Gregory Slabaugh
整个幻灯片图像 WSI 由于其十亿像素大小和大量伪影的存在而提出了一项具有挑战性的计算机视觉任务。然而,它们是患者诊断和分层的宝贵资源,通常代表诊断任务的黄金标准。现实世界的临床数据集往往是一组异构 WSI,其标签存在于患者级别,注释很少甚至没有。近年来,人们开发了基于弱监督注意力的多实例学习方法来应对这些挑战,但可能无法解决长程和短程依赖性。在这里,我们提出了一种端到端的多染色自注意力图 MUSTANG 多实例学习管道,旨在解决弱监督的十亿像素多图像分类任务,其中标签在患者级别分配,但没有幻灯片级别标签或区域注释可用。该管道使用基于自注意力的方法,将操作限制为基于欧几里德距离的嵌入式 WSI 补丁的高度稀疏 k 最近邻图。我们证明这种方法实现了最先进的 F1 分数 AUC 0.89 0.92,优于广泛使用的 CLAM 模型。我们的方法是高度模块化的,可以轻松修改以适应不同的临床数据集,因为它只需要没有注释的患者级别标签,并且接受不同大小的 WSI 集,因为图表可以具有不同的大小和结构。

Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation
Authors Jingyu Zhang, Huitong Yang, Daijie Wu, Xuesong Li, Xinge Zhu, Yuexin Ma
当前最先进的基于点云的感知方法通常依赖于大规模标记数据,这需要昂贵的手动注释。一个自然的选择是探索 3D 感知任务的无监督方法。然而,此类方法常常面临性能大幅下降的困难。幸运的是,我们发现存在大量基于图像的数据集,并且可以提出一种替代方案,即将 2D 图像中的知识转移到 3D 点云。具体来说,我们通过充分探索图像和点云之间的关系并设计有效的特征对齐策略,提出了一种新的方法来应对具有挑战性的跨模式和跨域适应任务。

KFC: Kinship Verification with Fair Contrastive Loss and Multi-Task Learning
Authors Jia Luo Peng, Keng Wei Chang, Shang Hong Lai
亲属关系验证是计算机视觉中的一项新兴任务,具有多种潜在应用。然而,没有足够大的亲属关系数据集来训练具有代表性和鲁棒性的模型,这是实现更好性能的限制。此外,众所周知,人脸验证存在偏见,以前的亲属关系验证工作没有解决这一问题,有时甚至会导致严重的问题。因此,我们首先结合现有的亲属关系数据集,并用正确的种族标记每个身份,以便考虑种族信息并提供一个更大且完整的数据集,称为 KinRace 数据集。其次,我们提出了一种带有注意力模块的多任务学习模型结构,以提高准确性,超越了最先进的性能。最后,我们的公平意识对比损失函数与对抗性学习极大地减轻了种族偏见。我们在传统对比损失中引入去偏差项,并在种族分类任务中实现梯度反转,这是混合两种公平方法来减轻偏差的创新想法。

Source-free Active Domain Adaptation for Diabetic Retinopathy Grading Based on Ultra-wide-field Fundus Image
Authors Jinye Ran, Guanghua Zhang, Ximei Zhang, Juan Xie, Fan Xia, Hao Zhang
域适应DA已广泛应用于未注释的超广角UWF眼底图像的糖尿病视网膜病变DR分级,它可以从标记的彩色眼底图像中转移注释的知识。然而,由于巨大的领域差距和复杂的现实世界场景,大多数主流DA的DR分级性能与临床诊断相距甚远。为了解决这个问题,我们在本文中提出了一种新颖的无源主动域适应 SFADA。具体来说,我们关注 DR 分级问题本身,并建议生成具有不断发展的 DR 关系的彩色眼底图像特征,主动选择一些有价值的 UWF 眼底图像进行局部表示匹配标记,并在具有 DR 病变的 UWF 眼底图像上调整模型原型。值得注意的是,SFADA 还考虑了数据隐私和计算效率。大量的实验结果表明,我们提出的 SFADA 实现了最先进的 DR 分级性能,与基线相比,准确度提高了 20.9,二次加权 kappa 提高了 18.63,分别达到 85.36 和 92.38。

Intelligent Debris Mass Estimation Model for Autonomous Underwater Vehicle
Authors Mohana Sri S, Swethaa S, Aouthithiye Barathwaj SR Y, Sai Ganesh CS
海洋垃圾对海洋野生动物的生存构成重大威胁,常常导致缠结和饥饿,最终导致死亡。因此,清除海洋碎片对于恢复自然平衡和让海洋生物繁衍生息至关重要。实例分割是一种先进的对象检测形式,可识别对象并精确定位和分离它们,使其成为自主水下航行器 AUV 有效导航并与其水下环境交互的重要工具。 AUV 使用图像分割来分析摄像机捕获的图像,以在水下环境中导航。在本文中,我们使用实例分割来计算图像中各个对象的面积,我们使用 Roboflow 中的 YOLOV7 为图像中的每个对象生成一组边界框,并为每次检测提供类标签和置信度得分。然后,通过将二进制掩码应用于对象的边界框,为每个对象创建分段掩码。通过将二进制阈值应用于经过训练以从背景中分割对象的卷积神经网络的输出来生成掩模。最后,通过应用形态学操作和轮廓检测等后处理技术来细化每个对象的分割掩模,以提高掩模的准确性和质量。估计实例分割面积的过程包括分别计算每个分割实例的面积,然后将所有实例的面积相加以获得总面积。使用基于对象形状(例如矩形和圆形)的标准公式进行计算。当物体比较复杂的情况下,可以使用蒙特卡罗方法来估计面积。

NDDepth: Normal-Distance Assisted Monocular Depth Estimation
Authors Shuwei Shao, Zhongcai Pei, Weihai Chen, Xingming Wu, Zhengguo Li
单目深度估计因其广泛的应用而引起了视觉界的广泛关注。在本文中,我们假设 3D 场景由分段平面构成,提出了一种新颖的物理几何驱动的深度学习框架,用于单目深度估计。特别是,我们引入了一个新的法线距离头,它输出像素级表面法线和平面到原点的距离,以导出每个位置的深度。同时,法线和距离通过开发的平面感知一致性约束进行正则化。我们进一步集成了一个额外的深度头来提高所提出框架的鲁棒性。为了充分利用这两个头的优势,我们开发了一种有效的对比迭代细化模块,该模块根据深度不确定性以互补的方式细化深度。大量实验表明,所提出的方法在 NYU Depth v2、KITTI 和 SUN RGB D 数据集上超越了之前最先进的竞争对手。

Few-shot Object Detection in Remote Sensing: Lifting the Curse of Incompletely Annotated Novel Objects
Authors Fahong Zhang, Yilei Shi, Zhitong Xiong, Xiao Xiang Zhu
目标检测是计算机视觉和卫星图像处理中的一项重要且基本的任务。由于大规模注释数据集的可用性,现有的深度学习方法已经取得了令人印象深刻的性能。然而,在现实世界的应用中,标签的可用性是有限的。在这种背景下,少数镜头对象检测 FSOD 已成为一个有前途的方向,其目的是使模型能够检测仅带有少量注释的新对象。然而,许多现有的 FSOD 算法忽略了一个关键问题,当输入图像包含多个新颖对象并且仅对其中的一个子集进行注释时,未标记的对象在训练期间将被视为背景。这可能会导致混乱并严重影响模型回忆新物体的能力。为了解决这个问题,我们提出了一种基于自训练的 FSOD ST FSOD 方法,该方法将自训练机制纳入少数镜头微调过程中。 ST FSOD 旨在发现未注释的新对象,并在训练过程中将其考虑在内。一方面,我们设计了两个分支区域提案网络 RPN 来分离基础对象和新对象的提案提取,另一方面,我们将学生教师机制纳入 RPN 和感兴趣区域 RoI 头中,以包含那些高度自信的区域未标记的目标作为伪标签。实验结果表明,我们提出的方法在各种 FSOD 设置中远远优于现有技术。

Adversarial Attacks Against Uncertainty Quantification
Authors Emanuele Ledda, Daniele Angioni, Giorgio Piras, Giorgio Fumera, Battista Biggio, Fabio Roli
机器学习模型可能会被对抗性示例所愚弄,即精心设计的输入扰动迫使模型输出错误的预测。虽然最近提出了不确定性量化来检测对抗性输入,但假设此类攻击表现出比原始数据更高的预测不确定性,但事实证明,专门旨在减少不确定性估计的自适应攻击可以轻松绕过这种防御机制。在这项工作中,我们关注不同的对抗场景,其中攻击者仍然对操纵不确定性估计感兴趣,但无论预测的正确性如何,目标是当机器学习模型的输出为由下游模块或操作员消耗。遵循这样的方向,我们为针对不确定性量化的攻击设计了一个威胁模型,针对概念上不同的 UQ 技术设计了不同的攻击策略,涵盖分类和语义分割问题。昆士兰大学最常用的方法受到攻击。

A multimodal deep learning architecture for smoking detection with a small data approach
Authors Robert Lakatos, Peter Pollner, Andras Hajdu, Tamas Joo
引言 隐蔽的烟草广告常常会引发监管措施。本文提出人工智能,特别是深度学习,在检测隐藏广告方面具有巨大潜力,并允许对烟草相关媒体内容进行公正、可重复和公平的量化。方法我们提出了一种基于深度学习、生成方法和人类强化的集成文本和图像处理模型,即使可用的训练数据很少,也可以以文本和视觉格式检测吸烟病例。结果我们的模型对于图像可以达到 74 的准确率,对于文本可以达到 98 的准确率。此外,我们的系统以人力强化的形式集成了专家干预的可能性。

Forgedit: Text Guided Image Editing via Learning and Forgetting
Authors Shiwen Zhang, Shuai Xiao, Weilin Huang
仅以图像和目标文本提示作为输入的真实图像上的文本引导图像编辑是一个非常普遍且具有挑战性的问题,这需要编辑模型自行推理应该编辑图像的哪一部分,以保留图像的特征原始图像,也可以进行复杂的非刚性编辑。以前基于微调的解决方案非常耗时且容易过度拟合,从而限制了它们的编辑能力。为了解决这些问题,我们设计了一种新颖的文本引导图像编辑方法 Forgedit。首先,我们提出了一种新颖的微调框架,通过视觉语言联合学习在不到一分钟的时间内重建给定的图像。然后我们引入向量减法和向量投影来探索用于编辑的正确文本嵌入。我们还发现了扩散模型中 UNet 结构的一般属性,并受到这一发现的启发,我们设计了遗忘策略来减少致命的过度拟合问题并显着提高扩散模型的编辑能力。我们的方法 Forgedit 采用 Stable Diffusion 实现,在具有挑战性的文本引导图像编辑基准 TEdBench 上取得了新的最先进结果,在 CLIP 分数和 LPIPS 分数方面超越了之前使用 Imagen 的 SOTA 方法 Imagic。

An overview of some mathematical techniques and problems linking 3D vision to 3D printing
Authors Emiliano Cristiani, Maurizio Falcone, Silvia Tozza
计算机视觉和 3D 打印在过去 10 年中迅速发展,但迄今为止,尽管它们共享多种数学技术,但它们之间的交互仍然非常有限。我们试图填补这一空白,概述了阴影形状问题以及 3D 打印的一些技术,重点是基于非线性偏微分方程和优化的方法。我们还绘制了可能的耦合,以完成物体制造过程,从物体的一张或多张图像开始,到最终的 3D 打印结束。

Decoupling the Curve Modeling and Pavement Regression for Lane Detection
Authors Wencheng Han, Jianbing Shen
基于曲线的车道表示是许多车道检测方法中的一种流行方法,因为它允许将车道表示为整个对象,并最大限度地利用有关车道的整体信息。然而,这些方法生成的曲线可能不太适合不规则的线,这可能导致与间接表示(例如基于分段或基于点的方法)相比在性能上存在差距。我们观察到,这些车道并不是不规则的,但由于绘制在不平坦的路面上,它们在透视图中显得呈锯齿状。在本文中,我们提出了一种新的车道检测任务方法,将其分解为曲线建模和地面高度回归两部分。具体来说,我们使用参数化曲线来表示BEV空间中的车道,以反映车道的原始分布。对于第二部分,由于地面高度是由路况等自然因素决定的,整体性较差,因此我们将关键点的地面高度与曲线建模分开回归。此外,我们通过设计新的框架和一系列损失来统一 2D 和 3D 车道检测任务,以指导有或没有 3D 车道标签的模型的优化。我们在 2D 车道检测基准 TuSimple 和 CULane 以及最近提出的 3D 车道检测数据集 ONCE 3Dlane 和 OpenLane 上进行的实验已经显示出显着的改进。

Retinex-guided Channel-grouping based Patch Swap for Arbitrary Style Transfer
Authors Chang Liu, Yi Niu, Mingming Ma, Fu Li, Guangming Shi
基于补丁匹配的风格迁移的基本原理是用风格图像特征图中最接近的补丁来替换内容图像特征图的补丁。由于从单个美学风格图像中获取的有限特征不足以表示内容自然图像的丰富纹理,现有技术将全通道风格特征块视为简单信号张量,并通过信号级融合创建新风格特征块,这忽略了风格特征中存在隐含的多样性,因此无法产生更好的风格化结果。在本文中,我们提出了一种基于 Retinex 理论指导、基于通道分组的补丁交换技术来解决上述挑战。通道分组策略将样式特征图分组为表面和纹理通道,这可以防止赢家通吃的问题。基于 Retinex 理论的分解控制更稳定的信道码率生成。此外,我们提供互补融合和多尺度生成策略,以分别防止意外的黑色区域和过度风格化的结果。

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving
Authors Xiangchao Yan, Runjian Chen, Bo Zhang, Jiakang Yuan, Xinyu Cai, Botian Shi, Wenqi Shao, Junchi Yan, Ping Luo, Yu Qiao
众所周知,为 3D 物体检测和 LiDAR 语义分割等感知任务注释 3D LiDAR 点云非常耗时且耗能。为了减轻标记的负担,有希望在不同的下游数据集和任务上执行大规模的预训练并微调预训练的主干。在本文中,我们提出了 SPOT,即通过占用预测进行可扩展预训练,用于学习可转移 3D 表示,并在标签效率设置下证明了其在具有不同下游任务的各种公共数据集上的有效性。我们的贡献有三重 1 占用预测对于学习一般表示很有希望,这通过大量数据集和任务的大量实验得到了证明。 2 SPOT 使用光束重采样技术进行点云增强,并应用类平衡策略来克服不同数据集中各种 LiDAR 传感器和注释策略带来的域差距。 3 观察到可扩展的预训练,也就是说,随着预训练数据的增加,所有实验的下游性能都会变得更好。我们相信,我们的研究结果可以促进对 LiDAR 点云的理解,并为 LiDAR 预训练的未来探索铺平道路。

Edge-aware Feature Aggregation Network for Polyp Segmentation
Authors Tao Zhou, Yizhe Zhang, Geng Chen, Yi Zhou, Ye Wu, Deng Ping Fan
精确的息肉分割对于临床实践中结直肠癌CRC的早期诊断和预防至关重要。然而,由于尺度变化和模糊的息肉边界,在不同尺度和形状下实现令人满意的分割性能仍然是一项具有挑战性的任务。在本研究中,我们提出了一种用于息肉分割的新型边缘感知特征聚合网络EFA网络,它可以充分利用跨级别和多尺度特征来增强息肉分割的性能。具体来说,我们首先提出一个边缘感知指导模块 EGM,将低级特征与高级特征相结合,以学习边缘增强特征,并使用逐层策略将其合并到每个解码器单元中。此外,提出了一种尺度感知卷积模块SCM,通过使用不同比率的扩张卷积来学习尺度感知特征,以有效地处理尺度变化。此外,提出了跨级融合模块CFM来有效地集成跨级特征,它可以利用局部和全局上下文信息。最后,CFM 的输出通过使用学习到的边缘感知特征进行自适应加权,然后用于生成多个侧面分割图。

Visible and NIR Image Fusion Algorithm Based on Information Complementarity
Authors Zhuo Li, Bo Li
可见光和近红外近红外波段传感器提供捕获场景中互补光谱辐射的图像。可见光和近红外图像的融合旨在利用它们的光谱特性来提高图像质量。然而,目前的可见光和近红外融合算法不能很好地利用光谱特性,并且缺乏信息互补性,从而导致颜色失真和伪影。因此,本文从物理信号层面设计了互补融合模型。首先,为了区分噪声和有用信息,我们使用权重引导滤波器和引导滤波器两层分别获得纹理层和边缘层。其次,为了生成初始可见光近红外互补权重图,可见光和近红外光的差异图通过扩展 DoG 滤波器进行滤波。之后,NIR夜间补偿的显着区域通过arctanI函数指导初始互补权重图。最后,可以分别通过可见光和近红外图像的互补权重图生成融合图像。

Spatial-Assistant Encoder-Decoder Network for Real Time Semantic Segmentation
Authors Yalun Wang, Shidong Chen, Huicong Bian, Weixiao Li, Qin Lu
语义分割是自动驾驶汽车理解周围环境的一项重要技术。目前,实时语义分割网络通常采用编码器解码器架构或双路径架构。一般来说,编码器解码器模型往往更快,而两个路径模型表现出更高的准确性。为了利用这两种优势,我们提出了空间辅助编码器解码器网络 SANet 来融合这两种架构。在整体架构中,我们坚持编码器解码器设计,同时保留编码器中间部分的特征图,并利用空洞卷积分支进行相同分辨率的特征提取。在编码器的末端,我们集成了非对称池化金字塔池化模块 APPPM 来优化特征图的语义提取。该模块结合了非对称池化层,可以以多种分辨率提取特征。在解码器中,我们提出了一个混合注意力模块 SAD,它集成了水平和垂直注意力以促进各种分支的组合。为了确定我们方法的有效性,我们的 SANet 模型在实时 CamVid 和城市景观数据集上取得了有竞争力的结果。通过采用单个 2080Ti GPU,SANet 在 Cityscape 测试数据集上以 65.1 FPS 的速度实现了 78.4 mIOU,在 CamVid 测试数据集上以 147 FPS 的速度实现了 78.8 mIOU。

Unsupervised Landmark Discovery Using Consistency Guided Bottleneck
Authors Mamona Awan, Muhammad Haris Khan, Sanoojan Baliah, Muhammad Ahmad Waseem, Salman Khan, Fahad Shahbaz Khan, Arif Mahmood
我们研究一个具有挑战性的问题,即无监督地发现物体地标。最近的许多方法依赖瓶颈来生成 2D 高斯热图,但是,这些方法在训练时生成知情热图方面受到限制,大概是由于缺乏有效的结构线索。此外,假设所有预测的地标在语义上都是相关的,尽管没有地面实况监督。在当前的工作中,我们在基于图像重建的管道中引入了一致性引导瓶颈,该瓶颈利用地标一致性(与伪地面事实的兼容性分数的衡量标准)来生成自适应热图。我们建议通过在图像之间形成地标对应来获得伪监督。然后,一致性会调节在生成自适应热图时发现的地标的不确定性,这些热图将一致的地标排列在噪声对应物之上,从而提供有效的结构信息以提高鲁棒性。对 MAFL、AFLW、LS3D、Cats 和 Shoes 等五个不同数据集的评估表明,与现有的最先进方法相比,所提出的方法具有出色的性能。

Uncertainty Estimation in Instance Segmentation with Star-convex Shapes
Authors Qasim M. K. Siddiqui, Sebastian Starke, Peter Steinbach
通过基于深度神经网络的算法,实例分割取得了有希望的进步。然而,这些模型经常表现出不正确的预测,且置信水平没有根据。因此,评估预测不确定性对于做出明智的决策至关重要。现有方法主要侧重于量化分类或回归任务中的不确定性,缺乏对实例分割的重视。我们的研究解决了估计与星凸形状实例位置相关的空间确定性的挑战。评估了两种不同的聚类方法,这些方法通过蒙特卡罗 Dropout 或深度集成技术使用样本来计算每个实例的空间和分数确定性。我们的研究表明,将空间和分数确定性得分相结合可以比单个确定性得分改进校准估计。值得注意的是,我们的实验结果表明,深度集成技术与我们新颖的径向聚类方法一起被证明是一种有效的策略。

Single-Image based unsupervised joint segmentation and denoising
Authors Nadja Gruber, Johannes Schwab, No mie Debroux, Nicolas Papadakis, Markus Haltmeier
在这项工作中,我们开发了一种用于单个图像的联合分割和去噪的无监督方法。为此,我们将变分分割方法的优点与自监督、基于单图像的深度学习方法的强大功能相结合。我们方法的一个主要优势在于,与需要大量标记样本的数据驱动方法相比,我们的模型可以将图像分割成多个有意义的区域,而无需任何训练数据库。此外,我们引入了一种新颖的能量函数,其中去噪和分割以两种任务相互受益的方式耦合。现有基于单图像的变分分割方法的局限性,即无法处理高噪声或通用纹理,通过与自监督图像去噪的这种特定组合来解决。我们提出了一种统一的优化策略,并表明,特别是对于显微镜中可用的非常嘈杂的图像,我们提出的联合方法优于其顺序对应方法以及纯粹专注于去噪或分割的替代方法。

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs
Authors Jiawen Zhu, Huayi Tang, Zhi Qi Cheng, Jun Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu
现有的夜间无人机跟踪器遵循“增强然后跟踪”架构,首先使用光增强器使夜间视频变亮,然后使用白天跟踪器来定位物体。这种单独的增强和跟踪无法构建端到端的可训练视觉系统。为了解决这个问题,我们提出了一种名为“黑暗线索提示跟踪 DCPT”的新颖架构,它通过有效学习生成黑暗线索提示来实现强大的夜间无人机跟踪。 DCPT无需单独的增强器,直接使用黑暗线索提示器DCP将反黑暗能力编码到提示中。具体来说,DCP 迭代地学习强调和削弱对黑暗线索的预测。然后,它将这些学习到的视觉提示注入到具有跨变压器层的固定参数的日间跟踪器中。此外,门控特征聚合机制可以实现提示之间以及提示与基础模型之间的自适应融合。大量实验表明 DCPT 在多个黑暗场景基准测试中具有最先进的性能。 DCPT 中增强和跟踪的统一端到端学习使系统更具可训练性。黑暗线索提示,高效注入反黑暗知识,无需额外模块。

RECALL+: Adversarial Web-based Replay for Continual Learning in Semantic Segmentation
Authors Chang Liu, Giulia Rizzoli, Francesco Barbato, Umberto Michieli, Yi Niu, Pietro Zanuttigh
对先前知识的灾难性遗忘是持续学习中的一个关键问题,通常通过各种正则化策略来处理。然而,现有方法尤其在执行多个增量步骤时很困难。在本文中,我们扩展了之前的方法 RECALL,并通过利用无监督的网络爬取数据从在线数据库中检索旧类的示例来解决遗忘问题。与不对网络数据进行任何评估的原始方法不同,这里我们引入了两种基于对抗性学习和自适应阈值的新颖方法,以仅从网络数据中选择与不再可用的训练样本的统计数据非常相似的样本。此外,我们改进了伪标记方案,以实现更准确的网络数据标记,同时也考虑了当前步骤中正在学习的类。

LineMarkNet: Line Landmark Detection for Valet Parking
Authors Zizhang Wu, Fan Wang, Yuanzhu Gan, Tianhao Xu, Weiwei Sun, Rui Tang
我们的目标是为代客泊车提供准确、高效的线路地标检测,这是自动驾驶领域长期存在但尚未解决的问题。为此,我们提出了一种深线地标检测系统,我们精心设计了轻量级的模块。具体来说,我们首先凭经验设计了四个通用线地标,包括三个物理线和一个新颖的心理线。四线地标可有效代客泊车。然后,我们开发一个深度网络 LineMarkNet 来检测来自环视摄像机的线地标,通过预校准的单应性,将来自四个独立摄像机的上下文融合到统一的鸟瞰图 BEV 空间中,具体来说,我们融合环视特征和 BEV 特征,然后使用多任务解码器来检测多线地标,其中我们将基于中心的策略应用于对象检测任务,并设计我们的图形转换器以通过语义分割任务的分层图形推理来增强视觉转换器。最后,我们进一步参数化检测到的线标志,例如截距斜率形式,其中新颖的过滤后端结合了时间和多视图一致性,以实现平滑和稳定的检测。此外,我们注释了大规模数据集来验证我们的方法。

Fully automated landmarking and facial segmentation on 3D photographs
Authors Bo Berends, Freek Bielevelt, Ruud Schreurs, Shankeeth Vinayahalingam, Thomas Maal, Guido de Jong
三维面部立体摄影测量无需使用电离辐射即可提供颅面部软组织的详细表示。虽然地标的手动注释是当前头影测量分析的黄金标准,但这是一个耗时的过程,并且容易出现人为错误。本研究的目的是使用基于深度学习的方法开发和评估自动头影测量注释方法。一名观察者在 2897 张 3D 面部照片上手动标注了 10 个地标。自动地标工作流程涉及两个连续的 DiffusionNet 模型和用于面部分割的附加算法。数据集被随机分为训练数据集和测试数据集。训练数据集用于训练深度学习网络,而测试数据集用于评估自动化工作流程的性能。通过计算自动和手动地标之间的欧几里德距离,并与手动注释和半自动地标方法的观察者内和观察者间变异性进行比较,评估工作流程的精度。该工作流程在所有测试用例中有 98.6 成功。基于深度学习的地标方法实现了精确一致的地标标注。平均精度为 1.69 ± 1.15 mm,与手动注释的观察者间变异性 1.31 ± 0.91 mm 相当。自动和手动地标之间的欧几里得距离在 69 中在 2 毫米以内。使用基于 DiffusionNet 的方法实现了 3D 照片上的自动地标标注。

Diffusion-based speech enhancement with a weighted generative-supervised learning loss
Authors Jean Eudes Ayilo MULTISPEECH , Mostafa Sadeghi MULTISPEECH , Romain Serizel MULTISPEECH
基于扩散的生成模型最近在语音增强 SE 中受到关注,为传统的监督方法提供了替代方案。这些模型将干净的语音训练样本转换为以噪声语音为中心的高斯噪声,并随后学习参数化模型以在噪声语音的条件下逆转此过程。与监督方法不同,基于生成的 SE 方法通常仅依赖于无监督损失,这可能会导致条件噪声语音的合并效率较低。为了解决这个问题,我们建议用均方误差 MSE 损失来增强原始扩散训练目标,测量每次反向过程迭代中估计的增强语音和地面真实干净语音之间的差异。

Unsupervised speech enhancement with diffusion-based generative models
Authors Bern Nortier MULTISPEECH , Mostafa Sadeghi MULTISPEECH , Romain Serizel MULTISPEECH
最近,基于条件分数的扩散模型在监督语音增强领域获得了极大的关注,产生了最先进的性能。然而,这些方法在推广到看不见的条件时可能会面临挑战。为了解决这个问题,我们引入了一种以无监督方式运行的替代方法,利用扩散模型的生成能力。具体来说,在训练阶段,使用基于分数的扩散模型在短时傅里叶变换 STFT 域中学习干净的语音先验分布,使其能够无条件地从高斯噪声生成干净的语音。然后,我们通过将学习到的干净语音先验与用于语音信号推断的噪声模型相结合,开发了一种用于语音增强的后验采样方法。通过迭代期望最大化 EM 方法,可以同时学习噪声参数和干净语音估计。据我们所知,这是第一个探索基于扩散的无监督语音增强生成模型的工作,与最近的基于变分自动编码器 VAE 的无监督方法和最先进的基于扩散的监督方法相比,展示了有希望的结果。

Posterior sampling algorithms for unsupervised speech enhancement with recurrent variational autoencoder
Authors Mostafa Sadeghi MULTISPEECH , Romain Serizel MULTISPEECH
在本文中,我们解决了基于循环变分自动编码器 RVAE 的无监督语音增强问题。与有监督的对应方法相比,这种方法提供了有前景的泛化性能。然而,测试时涉及的迭代变分期望最大化VEM过程依赖于变分推理方法,导致计算复杂度很高。为了解决这个问题,我们提出了基于 Langevin 动力学和 Metropolis Hasting 算法的高效采样技术,适用于使用 RVAE 进行基于 EM 的语音增强。通过直接从 EM 过程中棘手的后验分布中采样,我们规避了变分推理的复杂性。我们进行了一系列实验,将所提出的方法与 VEM 以及基于扩散模型的最先进的监督语音增强方法进行了比较。结果表明,我们基于采样的算法不仅在计算效率方面而且在整体性能方面都显着优于 VEM。

AutoDiffusion: Training-Free Optimization of Time Steps and Architectures for Automated Diffusion Model Acceleration
Authors Lijiang Li, Huixia Li, Xiawu Zheng, Jie Wu, Xuefeng Xiao, Rui Wang, Min Zheng, Xin Pan, Fei Chao, Rongrong Ji
扩散模型是新兴的表达生成模型,其中单个图像生成需要大量的时间步推理步骤。为了加速这种繁琐的过程,统一减少步骤被认为是扩散模型无可争议的原则。我们认为这种统一的假设在实践中并不是最优解,即我们可以为不同的模型找到不同的最优时间步。因此,我们建议在统一框架中搜索最佳时间步序列和压缩模型架构,以实现扩散模型的有效图像生成,而无需任何进一步的训练。具体来说,我们首先设计一个由所有可能的时间步长和各种架构组成的统一搜索空间。然后,引入两阶段进化算法在设计的搜索空间中寻找最优解。为了进一步加速搜索过程,我们使用生成样本和真实样本之间的 FID 分数来估计采样示例的性能。因此,所提出的方法是免训练的,无需任何训练过程即可获得最佳时间步长和模型架构。与最先进的扩散采样器正交,可以集成以获得更好的样品质量。三.广义而言,搜索的时间步长和架构可以直接应用于具有相同指导尺度的不同扩散模型。实验结果表明,我们的方法仅使用几个时间步即可实现出色的性能,例如

Sample-adaptive Augmentation for Point Cloud Recognition Against Real-world Corruptions
Authors Jie Wang, Lihe Ding, Tingfa Xu, Shaocong Dong, Xinli Xu, Long Bai, Jianan Li
腐败下的鲁棒3D感知已成为3D视觉领域的一项重要任务。而当前的数据增强技术通常以离线方式对所有点云对象进行随机变换,而忽略样本的结构,导致增强过度或不足。在这项工作中,我们提出了一种替代方案,根据样本的结构进行样本自适应转换,以通过自动增强框架应对潜在的损坏,称为 AdaptPoint。特别地,我们利用一个由变形控制器和掩模控制器组成的模仿器,分别负责根据输入点云的内在结构信息预测变形参数并生成每点掩模,然后在顶部进行损坏模拟。然后利用鉴别器来防止产生偏离原始数据分布的过度损坏。此外,还加入了感知引导反馈机制,指导生成适当难度的样本。此外,为了解决现实世界中损坏点云的缺乏问题,我们还引入了一个新的数据集 ScanObjectNN C,它与现实世界环境中的实际数据表现出更大的相似性,特别是与之前的 CAD 数据集相比。

Predicate Classification Using Optimal Transport Loss in Scene Graph Generation
Authors Sorachi Kurita, Satoshi Oyama, Itsuki Noda
在场景图生成 SGG 中,由于数据集中关系标签分布的严重不平衡,使用交叉熵损失进行学习会产生有偏差的预测。因此,本研究提出了一种使用最佳传输生成场景图的方法作为比较两个概率分布的度量。我们应用具有最佳传输损失的学习来进行 SGG 中的谓词分类,该损失反映了标签之间在传输成本方面的相似性。在所提出的方法中,使用从预训练模型获得的单词的相似度来定义最佳运输的运输成本。

Exploring Different Levels of Supervision for Detecting and Localizing Solar Panels on Remote Sensing Imagery
Authors Maarten Burger 1 and 2 , Rob Wijnhoven 1 , Shaodi You 2 1 University of Amsterdam UvA , 2 Spotr.ai
本研究研究遥感图像中的物体存在检测和定位,重点是太阳能电池板识别。我们探索不同级别的监督,评估三种模型:完全监督的目标检测器、基于 CAM 定位的弱监督图像分类器和最低限度监督的异常检测器。分类器在二进制存在检测方面表现出色,F1 分数为 0.79,而对象检测器 0.72 提供精确定位。异常检测器需要更多数据才能实现可行的性能。模型结果的融合显示了潜在的准确性提升。 CAM 对本地化的影响不大,GradCAM、GradCAM 和 HiResCAM 会产生出色的结果。

Exploiting Causality Signals in Medical Images: A Pilot Study with Empirical Results
Authors Gianluca Carloni, Sara Colantonio
我们提出了一种自动分类医学图像的新方法,该方法使用场景中的弱因果信号来模拟图像一个部分中某个特征的存在如何影响图像不同部分中另一个特征的出现。我们的方法由两个组件组成:卷积神经网络主干和因果因素提取器模块。后者计算特征图的权重,以根据其在图像场景中的因果影响来增强每个特征图。我们可以通过使用两个外部信号来修改因果关系模块的功能,从而获得我们方法的不同变体。我们使用定量实验、定性评估和消融研究,在用于前列腺癌诊断的前列腺 MRI 图像公共数据集上评估我们的方法。我们的结果表明,我们的方法提高了分类性能并产生更稳健的预测,重点关注图像的相关部分。

SideGAN: 3D-Aware Generative Model for Improved Side-View Image Synthesis
Authors Kyungmin Jo, Wonjoon Jin, Jaegul Choo, Hyunjoon Lee, Sunghyun Cho
虽然最近的 3D 感知生成模型已经展示了具有多视图一致性的照片逼真图像合成,但合成图像质量会根据相机姿势而降低,例如,侧面视点处边界模糊且有噪声的面部。这种退化主要是由于从姿势严重不平衡的数据集中同时学习姿势一致性和照片真实感造成的。在本文中,我们提出了 SideGAN,这是一种新颖的 3D GAN 训练方法,可以生成照片般逼真的图像,无论相机姿势如何,特别是对于侧视角的脸部。为了缓解学习照片真实感和姿势一致图像合成的挑战性问题,我们将问题分为两个子问题,每个子问题都可以更容易地解决。具体来说,我们将该问题表述为两个简单判别问题的组合,其中一个学习判别合成图像看起来是否真实,另一个学习判别合成图像是否与相机姿势一致。基于此,我们提出了一个具有两个判别分支的双分支判别器。我们还提出了姿势匹配损失来学习 3D GAN 的姿势一致性。此外,我们提出了一种姿势采样策略,以增加姿势不平衡数据集中陡峭角度的学习机会。

Pointing out Human Answer Mistakes in a Goal-Oriented Visual Dialogue
Authors Ryosuke Oshima, Seitaro Shinagawa, Hideki Tsunashima, Qi Feng, Shigeo Morishima
人类和智能代理之间的有效通信对于解决复杂问题具有广阔的应用前景。其中一种方法是视觉对话,它利用多模式上下文来帮助人类。然而,现实世界的场景偶尔会涉及人为错误,这可能会导致智能代理失败。虽然大多数先前的研究都假设人类对话者给出了完美的答案,但我们关注的是代理指出无意的错误供对话者审查的设置,更好地反映现实世界的情况。在本文中,我们通过分析以前未使用的人类错误数据集,表明人类答案错误取决于视觉对话中的问题类型和 QA 轮次。

GloPro: Globally-Consistent Uncertainty-Aware 3D Human Pose Estimation & Tracking in the Wild
Authors Simon Schaefer, Dorian F. Henning, Stefan Leutenegger
准确且具有不确定性的 3D 人体姿态估计是实现真正安全而高效的人机交互的关键。目前3D人体姿势估计中的不确定性感知方法仅限于预测身体姿势的不确定性,而有效地忽略了身体形状和根姿势。在这项工作中,我们提出了 GloPro,据我们所知,它是第一个通过有效地将视觉线索与学习的运动模型融合来预测 3D 身体网格的不确定性分布(包括其形状、姿势和根姿势)的框架。我们证明,即使在存在严重遮挡的情况下,它在世界坐标系中的人体轨迹精度方面也远远优于最先进的方法,产生一致的不确定性分布,并且可以实时运行。

Improving CLIP Robustness with Knowledge Distillation and Self-Training
Authors Clement Laroudie, Andrei Bursuc, Mai Lan Ha, Gianni Franchi
本文研究了多模态计算机视觉模型(CLIP 对比语言图像预训练)在无监督学习背景下的稳健性。主要目标有两个,首先是评估 CLIP 的稳健性,其次是探索增强其稳健性的策略。为了实现这一目标,我们引入了一种名为 LP CLIP 的新颖方法。该技术涉及通过合并位于其编码结构之上的线性探测层来提炼 CLIP 特征。这个新添加的层是利用 CLIP 生成的伪标签以及自我训练策略进行训练的。 LP CLIP 技术提供了一种有前途的方法来增强 CLIP 的鲁棒性,而无需注释。通过利用简单的线性探测层,我们的目标是提高模型承受现实场景中常见的各种不确定性和挑战的能力。重要的是,我们的方法不依赖于带注释的数据,这使得它在标记数据可能稀缺或获取成本高昂的情况下特别有价值。

OccluTrack: Rethinking Awareness of Occlusion for Enhancing Multiple Pedestrian Tracking
Authors Jianjun Gao, Yi Wang, Kim Hui Yap, Kratika Garg, Boon Siew Han
多个行人跟踪面临着在存在遮挡的情况下跟踪行人的挑战。现有方法存在运动估计、外观特征提取和遮挡关联不准确的问题,导致识别F1分数IDF1不足、ID开关IDSw过多、关联精度和召回率AssA和AssR不足。我们发现主要原因是部分遮挡导致的检测异常。在本文中,我们建议关键的见解是明确的运动估计、可靠的外观特征以及遮挡场景中的公平关联。具体来说,我们提出了一种自适应遮挡感知多行人跟踪器 OccluTrack。我们首先在卡尔曼滤波器中引入异常运动抑制机制,以自适应地检测和抑制由部分遮挡引起的异常运动。其次,我们提出了一个姿势引导的重新识别模块来提取部分被遮挡的行人的判别性部分特征。最后,我们设计了一种新的遮挡感知关联方法,以实现遮挡行人的公平 IoU 和外观嵌入距离测量。广泛的评估结果表明,我们的 OccluTrack 在 MOT Challenge 数据集上的表现优于最先进的方法。

RoadFormer: Duplex Transformer for RGB-Normal Semantic Road Scene Parsing
Authors Jiahang Li, Yikang Zhang, Peng Yun, Guangliang Zhou, Qijun Chen, Rui Fan
深度卷积神经网络的最新进展在道路场景解析领域显示出了巨大的前景。然而,现有的工作主要集中在自由空间检测上,很少关注可能损害驾驶安全性和舒适性的危险道路缺陷。在本文中,我们介绍了 RoadFormer,这是一种为道路场景解析而开发的基于 Transformer 的新型数据融合网络。 RoadFormer 利用双工编码器架构从 RGB 图像和表面法线信息中提取异构特征。编码后的特征随后被输入到一个新颖的异构特征协同块中,以进行有效的特征融合和重新校准。然后,像素解码器从融合和重新校准的异构特征中学习多尺度长程依赖性,这些特征随后由 Transformer 解码器处理以产生最终的语义预测。此外,我们还发布了 SYN UDTIRI,这是第一个大规模道路场景解析数据集,其中包含超过 10,407 个 RGB 图像、密集深度图像以及不同形状和大小的自由空间和道路缺陷的相应像素级注释。对我们的 SYN UDTIRI 数据集以及三个公共数据集(包括 KITTI road、CityScapes 和 ORFD)进行的广泛实验评估表明,RoadFormer 在道路场景解析方面优于所有其他最先进的网络。具体来说,RoadFormer 在 KITTI 道路基准测试中排名第一。

Anti-Aliased Neural Implicit Surfaces with Encoding Level of Detail
Authors Yiyu Zhuang, Qi Zhang, Ying Feng, Hao Zhu, Yao Yao, Xiaoyu Li, Yan Pei Cao, Ying Shan, Xun Cao
我们提出了 LoD NeuS,一种用于高频几何细节恢复和抗锯齿新颖视图渲染的高效神经表示。从具有细节级别 LoD 的基于体素的表示中汲取灵感,我们引入了一种基于多尺度三平面的场景表示,它能够捕获带符号距离函数 SDF 的 LoD 和空间辐射亮度。我们的表示沿着射线聚合来自圆锥台内的多重卷积特征化的空间特征,并通过可微分渲染优化 LoD 特征体积。此外,我们提出了一种误差引导采样策略来指导优化过程中 SDF 的增长。

Multi-dimension Queried and Interacting Network for Stereo Image Deraining
Authors Yuanbo Wen, Tao Gao, Ziqi Li, Jing Zhang, Ting Chen
消除立体图像中的雨水退化是一项艰巨的挑战,这需要有效利用双重视图之间存在的相互信息。为此,我们设计了 MQINet,它采用多维查询和交互来进行立体图像去雨。更具体地说,我们的方法结合了上下文感知维度明智查询块 CDQB 。该模块利用独立于输入特征的维度明智查询,并采用全局上下文感知注意力 GCA 来捕获基本特征,同时避免冗余或不相关信息的纠缠。同时,我们引入了一种基于雨天图像逆物理模型的视图内物理感知注意力IPA。 IPA 提取对降雨退化物理敏感的浅层特征,有助于减少早期学习期间与降雨相关的伪影。此外,我们集成了跨视图多维度交互注意机制 CMIA,以促进跨多个维度的两个视图之间的全面特征交互。大量的实验评估证明了我们的模型相对于 EPRRNet 和 StereoIRR 的优越性,PSNR 分别提高了 4.18 dB 和 0.45 dB。

360$^\circ$ Reconstruction From a Single Image Using Space Carved Outpainting
Authors Nuri Ryu, Minsu Gong, Geonung Kim, Joo Haeng Lee, Sunghyun Cho
我们介绍 POP3D,这是一种新颖的框架,可以从单个图像创建完整的 360 度环视 3D 模型。 POP3D 解决了限制单视图重建的两个突出问题。首先,POP3D 为任意类别提供了实质性的通用性,这是以前的方法难以实现的特征。其次,POP3D进一步提高了重建保真度和自然度,这是并行作品所缺乏的一个关键方面。我们的方法结合了四个主要组件的优点:1 单目深度和法线预测器,用于预测关键的几何线索;2 一种空间雕刻方法,能够划分目标对象的潜在不可见部分;3 一个在大型图像上预先训练的生成模型。可以完成目标看不见区域的缩放图像数据集,以及 4 神经隐式表面重建方法,用于使用 RGB 图像和单眼几​​何线索重建对象。这些组件的组合使 POP3D 能够轻松地泛化各种野外图像并生成最先进的重建,其性能显着优于类似的作品。

RGB-based Category-level Object Pose Estimation via Decoupled Metric Scale Recovery
Authors Jiaxin Wei, Xibin Song, Weizhe Liu, Laurent Kneip, Hongdong Li, Pan Ji
虽然显示出有希望的结果,但最近基于 RGB D 相机的类别级物体姿态估计方法由于严重依赖深度传感器而限制了应用。仅 RGB 方法提供了解决此问题的替代方案,但由于单眼观察而存在固有的尺度模糊性。在本文中,我们提出了一种新颖的流程,可将 6D 姿态和尺寸估计解耦,以减轻不完美尺度对刚性变换的影响。具体来说,我们利用预先训练的单目估计器来提取局部几何信息,主要有助于搜索内部 2D 3D 对应关系。同时,设计了一个单独的分支来根据类别级别的统计数据直接恢复对象的度量尺度。最后,我们提倡使用 RANSAC P n P 算法稳健地求解 6D 物体位姿。

UPL-SFDA: Uncertainty-aware Pseudo Label Guided Source-Free Domain Adaptation for Medical Image Segmentation
Authors Jianghao Wu, Guotai Wang, Ran Gu, Tao Lu, Yinan Chen, Wentao Zhu, Tom Vercauteren, S bastien Ourselin, Shaoting Zhang
域适应 DA 对于基于深度学习的医学图像分割模型来说非常重要,可以处理来自新目标域的测试图像。由于在新中心部署经过训练的模型时,源域数据通常不可用,因此 SFDA 呼吁数据和注释能够有效适应目标域。然而,由于缺乏足够的监督,源域图像不可用且目标域图像未标记,现有的 SFDA 方法性能有限。我们提出了一种新颖的不确定性感知伪标签引导的 UPL SFDA 医学图像分割方法。具体来说,我们提出目标域增长 TDG,通过扰动多次复制预训练模型的预测头来增强目标域中预测的多样性。这些重复头中的不同预测用于获取未标记的目标域图像的伪标签及其不确定性,以识别可靠的伪标签。我们还提出了一种两次前向传递监督 TFS 策略,该策略使用一次前向传递中获得的可靠伪标签来监督下一次前向传递中的预测。通过基于平均预测的熵最小化项进一步规范化,该项鼓励不同预测头中的置信且一致的结果。 UPL SFDA 通过多部位心脏 MRI 分割数据集、跨模态胎儿大脑分割数据集和 3D 胎儿组织分割数据集进行了验证。

Transferable Adversarial Attack on Image Tampering Localization
Authors Yuqi Wang, Gang Cao, Zijie Lou, Haochen Zhu
评估现有数字图像篡改定位算法在实际应用中的安全性具有重要意义。在本文中,我们提出了一种对抗性攻击方案来揭示这种篡改定位器的可靠性,该方案会被愚弄并且无法正确预测更改的区域。具体来说,针对白黑盒攻击实现了基于优化和梯度的对抗示例。相应地,对抗样本通过反向梯度传播进行优化,并在梯度上升的方向上自适应地添加扰动。黑盒攻击是通过依赖此类对抗性示例到不同定位器的可转移性来实现的。

Learning Point-wise Abstaining Penalty for Point Cloud Anomaly Detection
Authors Shaocong Xu, Pengfei Li, Xinyu Liu, Qianpu Sun, Yang Li, Shihui Guo, Zhen Wang, Bo Jiang, Rui Wang, Kehua Sheng, Bo Zhang, Hao Zhao
基于激光雷达的语义场景理解是现代自动驾驶感知堆栈中的重要模块。然而,识别 LiDAR 点云中的分布外 OOD 点具有挑战性,因为与 RGB 图像相比,点云缺乏语义丰富的特征。我们从选择性分类的角度重新审视这个问题,它将选择性函数引入到标准闭集分类设置中。我们的解决方案建立在放弃选择任何已知类别的基本思想之上,但学习了基于边际损失的逐点放弃惩罚。合成离群值以近似无限的 OOD 样本对于这个想法也至关重要,因此我们提出了一个强大的合成管道,可以生成源自各种因素的离群值,不切实际的对象类别、采样模式和大小。我们证明,除了逐点惩罚之外,针对不同类型的合成异常值学习不同的弃权惩罚可以进一步提高性能。我们在 SemanticKITTI 和 nuScenes 上对我们的方法进行基准测试,并取得了最先进的结果。风险覆盖率分析进一步揭示了不同方法的内在属性。

Multi-level feature fusion network combining attention mechanisms for polyp segmentation
Authors Junzhuo Liu, Qiaosong Chen, Ye Zhang, Zhixiang Wang, Deng Xin, Jin Wang
临床上,自动息肉分割技术有可能显着提高医疗诊断的效率和准确性,从而降低患者患结直肠癌的风险。不幸的是,现有方法存在两个重大弱点,可能会影响分割的准确性。首先,编码器提取的特征没有得到充分的过滤和利用。其次,没有考虑到特征融合带来的语义冲突和信息冗余。为了克服这些限制,我们提出了一种新的息肉分割方法,称为 MLFF Net,它利用多级特征融合和注意力机制。具体来说,MLFF Net 包括三个模块:多尺度注意力模块 MAM、高级特征增强模块 HFEM 和全局注意力模块 GAM。其中,MAM用于从编码器的浅层输出中提取多尺度信息和息肉细节。在 HFEM 中,编码器的深层特征通过聚合相互补充。同时,注意力机制重新分配聚合特征的权重,弱化冲突的冗余部分,突出对任务有用的信息。 GAM 结合了编码器和解码器的特征,并计算全局依赖性以防止感受野局部性。

An Empirical Study of Attention Networks for Semantic Segmentation
Authors Hao Guo, Hongbiao Si, Guilin Jiang, Wei Zhang, Zhiyan Liu, Xuanyi Zhu, Xulong Zhang, Yang Liu
语义分割是计算机视觉中的一个至关重要的问题。最近,语义分割的常见解决方案是端到端卷积神经网络,它比传统方法准确得多。最近,基于注意力的解码器在各种数据集上实现了最先进的 SOTA 性能。但这些网络总是与以前的SOTA网络的mIoU进行比较,以证明其优越性,而忽略了其特性,而没有考虑各个类别的计算复杂性和精度,这对于工程应用至关重要。此外,不同网络之间分析FLOPs和内存的方法也不一致,这使得比较难以利用。更重要的是,各种方法在语义分割中利用了注意力,但这些方法缺乏结论。本文首先进行实验来分析它们的计算复杂度并比较它们的性能。然后总结了这些网络的合适场景,并总结了构建注意力网络时应关注的要点。

Image-Text Pre-Training for Logo Recognition
Authors Mark Hubenthal, Suren Kumar
开放集徽标识别通常通过首先检测可能的徽标区域,然后将检测到的部分与不断变化的裁剪徽标图像数据集进行匹配来解决。由于徽标中文本和符号的混合,匹配模型是一个度量学习问题,对于徽标识别尤其具有挑战性。我们提出了两个新颖的贡献来提高匹配模型的性能:a 使用图像文本配对样本进行预训练,b 改进的度量学习损失函数。微调 ImageNet 预训练模型的标准范例未能发现有效解决匹配问题所需的文本敏感性。这项工作证明了对图像文本对进行预训练的重要性,这显着提高了为徽标检索任务训练的视觉嵌入器的性能,特别是对于更多文本主导类。我们构建了一个组合的公共徽标数据集,结合了 LogoDet3K、OpenLogo 和 FlickrLogos 47(被视为 OpenLogoDet3K47)。我们表明,在图像文本数据上预训练的相同视觉主干,在 OpenLogoDet3K47 上进行微调时,可实现 98.6 的召回率 1,与 Imagenet1K 上预训练的 97.6 相比,显着提高了性能。我们推广 ProxyNCA 损失函数来提出 ProxyNCAHN,它结合了特定类别的硬负图像。

Specification-Driven Video Search via Foundation Models and Formal Verification
Authors Yunhao Yang, Jean Rapha l Gaglione, Sandeep Chinchali, Ufuk Topcu
视频数据的日益丰富使用户能够搜索感兴趣的事件,例如紧急事件。与此同时,它引发了新的担忧,例如保护隐私的需要。现有的视频搜索方法需要手动检查或经过大量训练的深度学习模型。我们开发了一种方法,利用视觉和语言模型的最新进展以及形式化方法来自动高效地搜索视频剪辑中感兴趣的事件。该方法包括将基于文本的事件描述映射到有限轨迹 LTL f 上的线性时序逻辑的算法和构建编码视频信息的自动机的算法。然后,该方法根据LTL f 规范正式验证表示视频的自动机,并且如果自动机满足规范,则将相关视频剪辑添加到搜索结果中。我们提供定性和定量分析来证明所提出方法的视频搜索能力。

Offline Detection of Misspelled Handwritten Words by Convolving Recognition Model Features with Text Labels
Authors Andrey Totev, Tomas Ward
近年来,随着深度学习架构的出现,离线手写识别 HWR 得到了显着改善。尽管如此,它仍然是一个具有挑战性的问题,实际应用通常依赖于后处理技术通过词典或语言模型来限制预测的单词。尽管性能有所增强,但此类系统在预期出现词汇表之外的单词的情况下不太可用,例如用于检测学校评估中拼写错误的单词。为此,我们引入了将手写图像与文本进行比较的任务。为了解决这个问题,我们提出了一种无限制的二元分类器,由 HWR 特征提取器和多模态分类头组成,多模态分类头将特征提取器输出与输入文本的向量表示进行卷积。我们模型的分类头完全基于使用最先进的生成对抗网络创建的合成数据进行训练。我们证明,在保持高召回率的同时,与直接使用最先进的 HWR 模型处理任务相比,可以对分类器进行校准,以实现平均精度提高 19.5。

Human Gait Recognition using Deep Learning: A Comprehensive Review
Authors Muhammad Imran Sharif, Mehwish Mehmood, Muhammad Irfan Sharif, Md Palash Uddin
步态识别 GR 是一种不断发展的生物识别方式,用于通过视觉摄像头进行远距离身份识别。 GR 为指纹和人脸识别提供了安全可靠的替代方案,因为区分虚假信号和真实信号更加困难。此外,GR 的抗欺骗能力使其适用于所有类型的环境。随着深度学习的兴起,GR 技术取得了稳步进步,并在各种背景下取得了可喜的成果。随着视频监控变得越来越普遍,新的障碍出现了,例如确保不同协议的统一性能评估、在光照条件变化、步态模式波动和保护隐私的情况下仍能可靠识别。本次调查旨在概述 GR 并分析环境与其他生物识别系统相比,可能会影响它的因素和复杂性。

Pre-training on Synthetic Driving Data for Trajectory Prediction
Authors Yiheng Li, Seth Z. Zhao, Chenfeng Xu, Chen Tang, Chenran Li, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan
事实证明,积累大量现实世界驾驶数据对于自动驾驶轨迹预测领域至关重要。鉴于当前轨迹预测模型对数据驱动方法的严重依赖,我们的目标是解决在有限的数据可用性下学习通用轨迹预测表示的挑战。我们建议增强高清地图和轨迹,并在它们之上应用预训练策略。具体来说,我们利用高清地图的图形表示并应用矢量变换来重塑地图,以轻松丰富有限的场景。此外,我们采用基于规则的模型来生成基于增强场景的轨迹,从而将轨迹扩大到超出收集的真实轨迹。为了促进对这个增强数据集中的一般表示的学习,我们全面探索了不同的预训练策略,包括扩展用于轨迹预测的 Masked AutoEncoder MAE 的概念。大量的实验证明了我们的数据扩展和预训练策略的有效性,其性能大大优于基线预测模型,例如

AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation
Authors Damian S jka, Sebastian Cygert, Bart omiej Twardowski, Tomasz Trzci ski
测试时间适应是一个有前途的研究方向,它允许源模型在没有任何监督的情况下适应数据分布的变化。然而,当前的方法通常是根据基准进行评估的,而这些基准只是现实世界场景的简化。因此,我们建议使用最近引入的自动驾驶数据集(即 CLAD C 和 SHIFT)来验证测试时间适应方法。我们观察到,当前的测试时间适应方法很难有效地处理不同程度的域转移,通常会导致性能下降,低于源模型的性能。我们注意到问题的根源在于无法保留源模型的知识并适应动态变化的、时间相关的数据流。因此,我们通过合并一个小的内存缓冲区来增强完善的自训练框架,以提高模型的稳定性,同时根据域转移的强度进行动态适应。

Unified Coarse-to-Fine Alignment for Video-Text Retrieval
Authors Ziyang Wang, Yi Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal
视频文本检索的规范方法利用视觉和文本信息之间的粗粒度或细粒度对齐。然而,根据文本查询检索正确的视频通常具有挑战性,因为它需要能够推理高级场景和低级对象视觉线索以及它们与文本查询的关系。为此,我们提出了一个统一的粗细对齐模型,称为 UCoFiA。具体来说,我们的模型捕获不同粒度级别的跨模态相似性信息。为了减轻不相关视觉线索的影响,我们还应用交互式相似性聚合模块 ISA 来考虑不同视觉特征的重要性,同时聚合跨模式相似性以获得每个粒度的相似性得分。最后,我们应用 Sinkhorn Knopp 算法在求和之前对每个级别的相似性进行归一化,从而缓解不同级别的表示过度和不足的问题。通过共同考虑不同粒度的跨模态相似性,UCoFiA 允许多粒度对齐的有效统一。根据经验,UCoFiA 在多个视频文本检索基准上优于先前最先进的基于 CLIP 的方法,在 MSR VTT、Activity Net 和 DiDeMo 上的文本到视频检索 R 1 方面分别实现了 2.4、1.4 和 1.3 的改进。

Multimodal Foundation Models: From Specialists to General-Purpose Assistants
Authors Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao
本文对展示视觉和视觉语言功能的多模态基础模型的分类和演变进行了全面调查,重点关注从专业模型到通用助手的转变。研究领域包括五个核心主题,分为两类。 i 我们首先对已建立的研究领域进行了调查,针对特定目的进行了预训练的多模态基础模型,包括学习用于视觉理解的视觉主干和文本到图像生成的两个主题方法。 ii 然后,我们介绍了探索性、开放研究领域多模态基础模型的最新进展,旨在发挥通用助理的作用,包括受大语言模型法学硕士启发的三个主题统一视觉模型、多模态法学硕士的端到端训练和链接与法学硕士的多模式工具。

Parameter-Efficient Long-Tailed Recognition
Authors Jiang Xin Shi, Tong Wei, Zhi Zhou, Xin Yan Han, Jie Jing Shao, Yu Feng Li
自从大型视觉语言模型(如对比语言图像预训练 CLIP)的出现以来,解决长尾识别任务的预训练和微调范式引起了人们的极大兴趣。虽然之前的研究显示了针对这些任务采用预先训练的模型的前景,但它们通常不需要大量的训练周期或额外的训练数据来保持良好的性能。在本文中,我们提出了 PEL,这是一种微调方法,可以在不到 20 个 epoch 的时间内有效地将预训练模型适应长尾识别任务,而不需要额外的数据。我们首先根据经验发现常用的微调方法,例如完全微调和分类器微调,会遭受过度拟合,导致尾部类别的性能恶化。为了缓解这个问题,PEL 通过采用任何现有参数高效微调方法的设计,引入了少量任务特定参数。此外,为了加速收敛,PEL 提出了一种新颖的语义感知分类器初始化技术,该技术源自 CLIP 文本编码器,而不增加任何计算开销。我们在四个长尾数据集上的实验结果表明,PEL 始终优于以前最先进的方法。

Hyperbolic vs Euclidean Embeddings in Few-Shot Learning: Two Sides of the Same Coin
Authors Gabriel Moreira, Manuel Marques, Jo o Paulo Costeira, Alexander Hauptmann
表示学习的最新研究表明,分层数据适合于双曲空间中的低维和高信息量表示。然而,即使双曲嵌入在图像识别中引起了人们的关注,它们的优化也很容易出现数值障碍。此外,与传统的欧几里得特征相比,尚不清楚哪些应用程序将从双曲性带来的隐性偏差中受益最多。在本文中,我们重点关注原型双曲神经网络。特别是,双曲嵌入在高维中收敛到庞加莱球边界的趋势以及这对少数镜头分类的影响。我们证明,在共同的双曲半径下,双曲嵌入可以获得最好的几次射击结果。

Instant Photorealistic Style Transfer: A Lightweight and Adaptive Approach
Authors Rong Liu, Enyu Zhao, Zhiyuan Liu, Andrew Wei Wen Feng, Scott John Easley
在本文中,我们提出了一种即时真实感风格转移 IPST 方法,旨在在超分辨率输入上实现即时真实感风格转移,而不需要对成对数据集进行预训练或施加额外的约束。我们的方法利用轻量级 StyleNet 实现从风格图像到内容图像的风格转换,同时保留非颜色信息。为了进一步增强风格转移过程,我们引入了实例自适应优化来优先考虑输出的真实感并加速风格网络的收敛,从而在几秒钟内快速完成训练。此外,IPST 非常适合多帧样式传输任务,因为它保留了多帧输入(例如视频和神经辐射场 NeRF)的时间和多视图一致性。

CaSAR: Contact-aware Skeletal Action Recognition
Authors Junan Lin, Zhichao Sun, Enjie Cao, Taein Kwon, Mahdi Rad, Marc Pollefeys
从自我中心的角度进行骨骼动作识别对于 AR VR 眼镜中的界面和人类机器人交互等设备资源有限的应用非常重要。大多数现有的骨骼动作识别方法使用手关节的 3D 坐标和物体的 8 个角矩形边界框作为输入,但它们没有捕获手和物体在空间上下文中如何相互作用。在本文中,我们提出了一个名为“接触感知骨骼动作识别 CaSAR”的新框架。它使用手部对象交互的新颖表示,其中包含空间信息:1 手关节与物体相交的接触点,2 手关节远离物体且几乎不参与当前动作的远点。我们的框架能够了解动作序列的每一帧中手如何触摸或远离对象,并使用此信息来预测动作类别。

Introspective Deep Metric Learning
Authors Chengkun Wang, Wenzhao Zheng, Zheng Zhu, Jie Zhou, Jiwen Lu
本文提出了一种内省式深度度量学习 IDML 框架,用于图像的不确定性感知比较。传统的深度度量学习方法侧重于学习判别性嵌入来描述图像的语义特征,而忽略了每个图像中因噪声或语义歧义而导致的不确定性的存在。在没有意识到这些不确定性的情况下进行训练会导致模型在训练过程中过度拟合带注释的标签,并在推理过程中产生令人不满意的判断。受此启发,我们认为一个好的相似性模型应该考虑语义差异,并意识到不确定性,以便更好地处理模糊图像,从而进行更稳健的训练。为了实现这一目标,我们建议不仅使用语义嵌入,还使用伴随的不确定性嵌入来表示图像,它分别描述图像的语义特征和模糊性。我们进一步提出了一种内省相似性度量来考虑图像的语义差异和歧义来做出图像之间的相似性判断。所提出的指标的梯度分析表明,它使模型能够以自适应且较慢的速度学习,以应对训练期间的不确定性。所提出的 IDML 框架通过不确定性建模提高了深度度量学习的性能,并在广泛使用的用于图像检索和聚类的 CUB 200 2011、Cars196 和斯坦福在线产品数据集上获得了最先进的结果。我们进一步对我们的框架进行深入分析,以证明 IDML 的有效性和可靠性。

Assessing the capacity of a denoising diffusion probabilistic model to reproduce spatial context
Authors Rucha Deshpande, Muzaffer zbey, Hua Li, Mark A. Anastasio, Frank J. Brooks
扩散模型已成为深度生成模型 DGM 的流行系列。在文献中,据称一类扩散模型去噪扩散概率模型 DDPM 与生成对抗网络 GAN 相比表现出优越的图像合成性能。迄今为止,这些声明已使用针对自然图像设计的基于集成的方法或传统的图像质量测量(例如结构相似性)进行了评估。然而,仍然需要了解 DDPM 能够在多大程度上可靠地学习医学成像领域相关信息(在本工作中称为空间上下文)。为了解决这个问题,首次报告了对 DDPM 学习与医学成像应用相关的空间背景的能力的系统评估。该研究的一个关键方面是使用随机上下文模型 SCM 来生成训练数据。通过这种方式,可以通过使用事后图像分析来定量评估 DDPM 可靠地再现空间上下文的能力。报告 DDPM 生成的集成中的错误率,并将其与对应于现代 GAN 的错误率进行比较。这些研究揭示了有关 DDPM 学习空间背景能力的新的重要见解。

Multi-Context Dual Hyper-Prior Neural Image Compression
Authors Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Mohammad Akyash, Hossein Kashiani, Nasser M. Nasrabadi
变换和熵模型是深度图像压缩神经网络的两个核心组件。大多数现有的基于学习的图像压缩方法利用基于卷积的变换,其缺乏对长范围依赖性进行建模的能力,这主要是由于卷积运算的感受野有限。为了解决这个限制,我们提出了一种基于 Transformer 的非线性变换。这种变换具有从输入图像中有效捕获局部和全局信息的卓越能力,从而产生更加去相关的潜在表示。此外,我们引入了一种新颖的熵模型,该模型结合了两个不同的超先验来对潜在表示的跨通道和空间依赖性进行建模。为了进一步改进熵模型,我们添加了一个全局上下文,利用远程关系来更准确地预测当前的潜在变量。这种全局上下文采用因果注意机制以内容相关的方式提取远程信息。

Multi-spectral Entropy Constrained Neural Compression of Solar Imagery
Authors Ali Zafari, Atefeh Khoshkhahtinat, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Michael S. F. Kirk, Daniel da Silva
研究太阳动态行为的任务被定义为每天捕获太阳的多光谱图像并将其传输到地面站。为了使传输高效且可行,需要利用图像压缩系统。最近成功的基于端到端优化神经网络的图像压缩系统已经显示出以临时方式使用的巨大潜力。在这项工作中,我们提出了一种基于变压器的多光谱神经图像压缩器,以有效捕获波长内的冗余。为了释放基于窗口的自注意力机制的局部性,我们提出了一种窗口间聚合令牌多头自注意力。此外,为了使神经压缩器自动编码器移位不变,使用了随机移位的窗口注意机制,这使得转换器块对其输入域中的平移不敏感。

Guide Your Agent with Adaptive Multimodal Rewards
Authors Changyeon Kim, Younggyo Seo, Hao Liu, Lisa Lee, Jinwoo Shin, Honglak Lee, Kimin Lee
开发能够适应看不见的环境的智能体仍然是模仿学习中的一项艰巨挑战。在这项工作中,我们提出了自适应返回条件策略 ARP,这是一个有效的框架,旨在使用自然语言任务描述和预训练的多模态编码器来增强代理的泛化能力。我们的关键思想是在预先训练的多模态嵌入空间(例如 CLIP)中计算视觉观察和自然语言指令之间的相似性,并将其用作奖励信号。然后,我们使用标有多模式奖励的专家演示来训练返回条件策略。由于多模态奖励在每个时间步长提供自适应信号,因此我们的 ARP 有效地减轻了目标的错误概括。与现有的文本条件策略相比,即使面对看不见的文本指令,这也会产生优异的泛化性能。为了提高奖励的质量,我们还引入了针对预训练多模态编码器的微调方法,进一步提高了性能。

AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models
Authors Yuan Tseng, Layne Berry, Yi Ting Chen, I Hsiang Chiu, Hsuan Hao Lin, Max Liu, Puyuan Peng, Yi Jen Shih, Hung Yu Wang, Haibin Wu, Po Yao Huang, Chun Mao Lai, Shang Wen Li, David Harwath, Yu Tsao, Shinji Watanabe, Abdelrahman Mohamed, Chi Luen Feng, Hung yi Lee
视听表征学习旨在通过利用听觉和视觉信息之间的相关性来开发具有类人感知的系统。然而,当前的模型通常专注于一组有限的任务,并且学习表示的泛化能力尚不清楚。为此,我们提出了 AV SUPERB 基准,该基准能够在涵盖语音和音频处理中的 5 个视听任务的 7 个数据集上对单模态视听和双模态融合表示进行通用评估。我们评估了 5 个最近的自监督模型,结果表明这些模型都不能推广到所有任务,这强调了未来研究提高通用模型性能的必要性。此外,我们还表明,可以通过中间任务微调来改进表示,并且使用 AudioSet 作为强大的中间任务来进行音频事件分类。

Context-Aware Neural Video Compression on Solar Dynamics Observatory
Authors Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Nasser M. Nasrabadi, Barbara J. Thompson, Michael S. F. Kirk, Daniel da Silva
NASA 的太阳动力学观测站 SDO 任务收集太阳日常活动的大量数据。数据压缩对于太空任务至关重要,可以通过消除数据冗余来降低数据存储和视频带宽要求。在本文中,我们提出了一种专门为 SDO 图像设计的基于神经 Transformer 的新型视频压缩方法。我们的主要目标是有效地利用太阳图像固有的时间和空间冗余来获得高压缩比。我们提出的架构受益于一种名为“融合局部感知窗口 FLaWin”的新型 Transformer 模块,它结合了基于窗口的自注意力模块和高效的融合局部感知前馈 FLaFF 网络。这种架构设计使我们能够同时捕获短程和长程信息,同时促进丰富多样的上下文表示的提取。此外,这种设计选择还降低了计算复杂性。

Self-Supervised Super-Resolution Approach for Isotropic Reconstruction of 3D Electron Microscopy Images from Anisotropic Acquisition
Authors Mohammad Khateri, Morteza Ghahremani, Alejandra Sierra, Jussi Tohka
三维电子显微镜 3DEM 是研究体积组织超微结构的重要技术。由于技术限制和高成像成本,样品通常进行各向异性成像,其中轴向 z 上的分辨率低于横向 x,y 上的分辨率。这种各向异性的 3DEM 会妨碍后续的分析和可视化任务。为了克服这一限制,我们提出了一种新的基于深度学习的自监督超分辨率方法,该方法可以从各向异性采集中计算重建各向同性 3DEM。所提出的基于深度学习的框架建立在包含视觉变换器 ViT 块的 U 形架构之上,可实现局部和全局多尺度图像依赖性的高性能学习。为了训练定制网络,我们采用自我监督的方法。具体来说,我们根据给定的各向异性 3DEM 数据生成各向异性和各向同性训练数据集对。通过我们提出的框架将给定的各向异性 3DEM 数据集输入训练网络中,即可获得各向同性 3DEM。重要的是,这种各向同性重建方法仅依赖于给定的各向异性 3DEM 数据集,不需要成对共同配准的各向异性和各向同性 3DEM 训练数据集。为了评估所提出方法的有效性,我们使用从大脑获取的三个 3DEM 数据集进行了实验。

Exploring the Influence of Information Entropy Change in Learning Systems
Authors Xiaowei Yu, Yao Xue, Lu Zhang, Li Wang, Tianming Liu, Dajiang Zhu
在这项工作中,我们通过向输入潜在特征添加噪声来探索深度学习系统中熵变化的影响。本文的应用集中于计算机视觉中的深度学习任务,但所提出的理论可以进一步应用于其他领域。噪声通常被视为各种深度学习架构中的有害扰动,例如卷积神经网络 CNN 和视觉转换器 ViT,以及图像分类和迁移学习等不同的学习任务。然而,本文旨在重新思考传统命题是否总是成立。我们证明特定噪声可以在某些条件下提高各种深度架构的性能。我们从理论上证明了通过降低信息熵定义的任务复杂性来从正噪声中获得的增强,并通过实验证明了在大型图像数据集(例如 ImageNet)中的显着性能增益。在这里,我们使用信息熵来定义任务的复杂性。我们根据噪声是否有助于降低任务的复杂性,将噪声分为两类:正噪声 PN 和有害噪声 HN 。 CNN 和 ViT 的大量实验表明,通过主动注入正噪声可以提高性能,我们在 ImageNet 上实现了前所未有的超过 95 的 top 1 准确率。理论分析和经验证据都证实,积极噪声的存在可以有益于学习过程,而传统上认为的有害噪声确实会损害深度学习模型。噪声的不同作用为特定任务的深度模型提供了新的解释,并为提高模型性能提供了新的范式。

Language Guided Adversarial Purification
Authors Himanshu Singh, A V Subramanyam
使用生成模型的对抗性纯化表现出强大的对抗性防御性能。这些方法与分类器和攻击无关,因此用途广泛,但通常计算量很大。扩散和评分网络的最新进展改进了图像生成,进而改进了对抗性净化。另一种高效的对抗性防御方法称为对抗性训练,需要攻击向量的特定知识,迫使它们在对抗性示例上进行广泛的训练。为了克服这些限制,我们引入了一个新的框架,即语言引导对抗性净化 LGAP,利用预先训练的扩散模型和字幕生成器来防御对抗性攻击。给定输入图像,我们的方法首先生成一个标题,然后用于通过扩散网络指导对抗性净化过程。我们的方法已经针对强大的对抗性攻击进行了评估,证明了其在增强对抗性鲁棒性方面的有效性。我们的结果表明,LGAP 优于大多数现有的对抗性防御技术,无需专门的网络训练。

Learning based 2D Irregular Shape Packing
Authors Zeshi Yang, Zherong Pan, Manyi Li, Kui Wu, Xifeng Gao
2D 不规则形状打包是在纹理图集中排列 3D 模型的 UV 补丁的必要步骤,以便在计算机图形学中实现内存高效的外观渲染。作为涉及所有块位置和方向的联合、组合决策问题,该问题具有众所周知的 NP 硬复杂度。先前的解决方案要么采用启发式装箱顺序,要么修改上游网格切割和 UV 映射以简化问题,这要么限制装箱比率,要么引发鲁棒性或通用性问题。相反,我们引入了一种学习辅助的二维不规则形状包装方法,该方法可以以最低的输入要求实现较高的包装质量。我们的方法迭代地选择 UV 补丁的子集并将其分组为近矩形的超级补丁,从本质上减少了装箱问题,在此基础上采用联合优化来进一步提高装箱率。为了有效地处理具有数百个补丁的大型问题实例,我们训练深度神经策略来预测近矩形补丁子集并确定它们的相对姿势,从而导致随补丁数量的线性时间缩放。

Dive Deeper into Rectifying Homography for Stereo Camera Online Self-Calibration
Authors Hongbo Zhao, Yikang Zhang, Qijun Chen, Rui Fan
立体相机外参数的准确估计是保证立体匹配算法性能的关键。在现有技术中,立体相机的在线自校准通常被表述为专门的视觉里程计问题,而没有考虑立体校正的原理。在本文中,我们首先深入研究了单应性校正的概念,这是我们新型立体相机在线自校准算法开发的基石,适用于只有一对图像可用的情况。此外,我们引入了一种简单而有效的解决方案,用于在存在立体视频序列的情况下进行全局最佳外在参数估计。此外,我们强调在平移向量中使用三个欧拉角和三个分量来进行性能量化是不切实际的。相反,我们引入了四个新的评估指标来量化外在参数估计的鲁棒性和准确性,适用于单对和多对情况。使用各种实验设置在室内和室外环境中进行的广泛实验验证了我们提出的算法的有效性。综合评估结果表明,与基线算法相比,其性能更加优越。

Decoupled Training: Return of Frustratingly Easy Multi-Domain Learning
Authors Ximei Wang, Junwei Pan, Xingzhuo Guo, Dapeng Liu, Jie Jiang
多领域学习 MDL 旨在训练跨多个重叠但不相同的领域的平均风险最小的模型。为了解决数据集偏差和领域支配的挑战,人们从通过调整分布来减少领域差距来寻求共性或通过实现领域特定的塔、门甚至专家来保留差异的角度提出了许多 MDL 方法。随着复杂的网络架构或损失函数的出现,MDL 模型变得越来越复杂,引入了额外的参数并增加了计算成本。在本文中,我们提出了一种非常简单且无超参数的多域学习方法,名为解耦训练 D Train。 D Train 是一种从通用到特定的训练策略的三阶段,首先在所有域上进行预训练以预热根模型,然后通过分成多个头在每个域上进行后训练,最后通过固定主干来微调头,从而实现解耦培训以实现领域独立性。

Correlation between morphological evolution of splashing drop and exerted impact force revealed by interpretation of explainable artificial intelligence
Authors Jingzu Yee, Daichi Igarashi, Pradipto, Akinori Yamanaka, Yoshiyuki Tagawa
这项研究揭示了飞溅形态与固体表面冲击液滴所施加的归一化冲击力之间可能存在的相关性。这一发现是通过新提出的特征提取方法以及由可解释的人工智能 XAI 视频分类器执行的飞溅和非飞溅液滴分类的后续解释获得的。值得注意的是,与提取的特征相对应的 XAI 权重矩阵元素的值被发现随着液滴形态的时间演化而变化。我们计算每帧相对于视频分类值的贡献的变化率,作为量化不同影响时间提取的泼溅和非泼溅特征对XAI模型分类的贡献的重要指标。值得注意的是,针对提取的飞溅特征计算的速率被发现与归一化冲击力的轮廓紧密匹配,其中在归一化冲击力达到其峰值之后,飞溅特征立即最为明显。

Learning Dynamic MRI Reconstruction with Convolutional Network Assisted Reconstruction Swin Transformer
Authors Di Xu, Hengjie Liu, Dan Ruan, Ke Sheng
动态磁共振成像 DMRI 是一种有效的成像工具,适用于需要对特定解剖结构进行运动跟踪的诊断任务。为了加速 DMRI 采集,k 空间测量通常沿空间或时空域进行欠采样。恢复有用信息的难度随着欠采样率的增加而增加。压缩感知就是为此目的而发明的,并且已经成为最流行的方法,直到过去十年基于深度学习的 DMRI 重建方法出现。然而,现有的深度学习网络在长距离顺序依赖理解和计算效率方面仍然受到限制,并且不是完全自动化的。考虑到 Transformers 位置嵌入和 swin window 自注意力机制在视觉领域的成功,特别是自然视频理解,我们特此提出一种用于 4D MRI 的名为 Reconstruction Swin Transformer RST 的新颖架构。 RST 继承了 Video Swin Transformer 的骨干设计,并引入了新颖的重建头来恢复像素强度。在 RST 学习之前,使用名为 SADXNet 的卷积网络快速初始化 2D MR 帧,以有效降低模型复杂度、GPU 硬件需求和训练时间。

ProtoKD: Learning from Extremely Scarce Data for Parasite Ova Recognition
Authors Shubham Trehan, Udhav Ramachandran, Ruth Scimeca, Sathyanarayanan N. Aakur
开发用于早期寄生虫检测的可靠计算框架,特别是在卵子或卵子阶段,对于推进医疗保健和有效管理潜在的公共卫生危机至关重要。虽然深度学习在各种任务中为人类工作人员提供了显着帮助,但其应用和诊断受到了对广泛数据集的需求的限制。从极其稀缺的训练数据集中学习的能力(即,当每个类的示例少于 5 个时)对于扩展生物医学应用中的深度学习模型至关重要,在生物医学应用中,大规模数据收集和注释可能会很昂贵,或者在新颖的情况下不可能实现。或未知的传染源。在这项研究中,我们引入了 ProtoKD,这是使用极其稀缺的数据解决多类寄生卵识别问题的首批方法之一。结合原型网络和自蒸馏的原理,我们可以从每个类的一个样本中学习鲁棒的表示。此外,我们建立了一个新的基准来推动这一关键方向的研究,并验证所提出的 ProtoKD 框架是否实现了最先进的性能。

Machine Learning for enhancing Wind Field Resolution in Complex Terrain
Authors Jacob Wulff Wold, Florian Stadtmann, Adil Rasheed, Mandar Tabib, Omer San, Jan Tore Horn
大气流动受到多种时空尺度的控制,因此在复杂地形中以高分辨率对此类湍流进行实时数值模拟在计算上变得困难。在这项研究中,我们展示了一种由增强型超分辨率生成对抗网络驱动的神经网络方法,可以在挪威贝萨克的实际风电场中升级低分辨率风场,从而生成高分辨率风场。基于神经网络的模型被证明可以成功地从较粗的尺度重建完全解析的 3D 速度场,同时尊重局部地形,并且它很容易优于三线性插值。

Preserving Tumor Volumes for Unsupervised Medical Image Registration
Authors Qihua Dong, Hao Du, Ying Song, Yan Xu, Jing Liao
医学图像配准是估计图像对之间的空间对应关系的一项关键任务。然而,当前基于深度学习的传统方法依赖相似性度量来生成变形场,这通常会导致不同区域(尤其是肿瘤区域)出现不成比例的体积变化。这些变化可以显着改变肿瘤大小和基础解剖结构,这限制了图像配准在临床诊断中的实际应用。为了解决这个问题,我们将肿瘤的图像配准制定为约束问题,在保留肿瘤体积的同时最大化其他正常区域的图像相似性。我们提出的策略涉及两个阶段的过程。在第一阶段,我们使用基于相似性的配准来通过体积变化来识别潜在的肿瘤区域,从而相应地生成软肿瘤掩模。在第二阶段,我们提出了一种具有新颖的自适应体积保留损失的体积保留配准,该损失根据前一阶段计算的掩模自适应地惩罚尺寸的变化。我们的方法通过使用软肿瘤掩模来调整对每个区域施加的体积保留损失,从而平衡不同区域(即正常区域和肿瘤区域)的图像相似性和体积保留。这确保了在配准过程中保留肿瘤体积。我们在各种数据集和网络架构上评估了我们的策略,证明我们的方法成功地保留了肿瘤体积,同时实现了与最先进的方法相当的配准结果。

Deep Prompt Tuning for Graph Transformers
Authors Reza Shirkavand, Heng Huang
通过解决传统图神经网络面临的挑战,图转换器在各种基于图的任务中得到了普及。然而,自注意力操作的二次复杂性和图转换器架构中的广泛分层在将它们应用于基于图的预测任务时提出了挑战。微调是一种常见的方法,它是资源密集型的,并且需要存储大型模型的多个副本。我们提出了一种称为深度图提示调整的新颖方法,作为微调的替代方案,以在基于下游图的预测任务中利用大型图变换器模型。我们的方法将可训练的特征节点引入到图中,并将任务特定的标记添加到图转换器中,从而增强了模型的表达能力。通过冻结预先训练的参数并仅更新添加的标记,我们的方法减少了自由参数的数量并消除了对多个模型副本的需要,使其适用于小型数据集并可扩展到大型图。通过对各种大小的数据集进行大量实验,我们证明了深度图提示调整可以实现与微调相当甚至更好的性能,尽管使用的任务特定参数要少得多。我们的贡献包括引入图转换器的即时调整、其在图转换器和消息传递图神经网络中的应用、提高的效率和资源利用率以及令人信服的实验结果。

Looking through the past: better knowledge retention for generative replay in continual learning
Authors Valeriya Khan, Sebastian Cygert, Kamil Deja, Tomasz Trzci ski, Bart omiej Twardowski
在这项工作中,我们改进了持续学习环境中的生成重放,以便在具有挑战性的场景中表现良好。当前的生成演练方法通常以小型和简单的数据集为基准,因为它们不够强大,无法生成具有更多类别的更复杂的数据。我们注意到,在基于 VAE 的生成重放中,这可能是由于映射到潜在空间时生成的特征与原始特征相距甚远。因此,我们提出了三种修改,使模型能够学习和生成复杂的数据。更具体地说,我们将蒸馏纳入当前模型和先前模型之间的潜在空间中,以减少特征漂移。此外,提出了重建和原始数据的潜在匹配,以改善生成的特征对齐。此外,根据观察到重建更适合保留知识,我们通过先前训练的模型添加了世代循环,以使它们更接近原始数据。我们的方法在各种场景中都优于其他生成重播方法。

TCGF: A unified tensorized consensus graph framework for multi-view representation learning
Authors Xiangzhu Meng, Wei Wei, Qiang Liu, Shu Wu, Liang Wang
多视图学习技术最近在机器学习领域获得了极大的关注,因为它们能够利用多个视图之间的一致性和互补信息。然而,对于将现有作品统一为可扩展且强大的学习框架的广义多视图框架仍然缺乏足够的研究,因为当前大多数作品都集中于特定风格的多视图模型。此外,大多数多视图学习工作严重依赖于特定的尺度场景,无法有效地整体理解多个尺度。这些限制阻碍了多视角重要信息的有效融合,导致泛化能力较差。为了解决这些限制,本文提出了一种通用的多视图表示学习框架,名为张量共识图框架 TCGF 。具体来说,它首先为现有的多视图作品提供一个统一的框架,以利用单个视图的表示,其目的是适用于任意假设和不同尺度的数据集。然后,将它们堆叠成对齐基础下的张量作为高阶表示,从而允许在所有视图之间平滑传播一致性和补充信息。此外,TCGF提出通过自适应地协作所有视图来学习共享的共识嵌入,以揭示多视图数据的本质结构,利用视图共识分组效应来规范视图共识表示。为了进一步促进相关研究,我们提供了针对大规模数据集的 TCGF 的具体实现,可以通过应用交替优化策略来有效解决该问题。

Exploration and Comparison of Deep Learning Architectures to Predict Brain Response to Realistic Pictures
Authors Riccardo Chimisso, Sathya Bur i , Paolo Marocco, Giuseppe Vizzari, Dimitri Ognibene
我们在 2023 年 Algonauts 挑战赛上展示了对机器学习架构的探索,用于预测大脑对现实图像的反应。我们的研究涉及对各种预训练模型的广泛实验。最初,我们采用更简单的模型来预测大脑活动,但逐渐引入了利用大规模预训练模型生成的可用数据和嵌入的更复杂的架构。我们遇到了与机器学习问题相关的典型困难,例如正则化和过度拟合,以及挑战特有的问题,例如组合多个输入编码的困难,以及输出的高维度、结构不清晰和噪声性质。为了克服这些问题,我们测试了基于单边缘 3D 位置、多感兴趣区域 ROI 和半球预测器模型,但我们发现采用多个简单模型(每个模型专用于每个受试者大脑每个半球的 ROI)会产生最佳结果单个完全连接的线性层,以 CLIP 生成的图像嵌入作为输入。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

你可能感兴趣的:(计算机视觉,Papers,视觉,人工智能,计算机视觉,CV)