无监督视频对象分割旨在分割视频序列中最突出的对象。然而,复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题,我们提出了一种引导式槽注意力网络,以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景槽根据与模板信息的交互进行迭代优化。此外,为了提高槽-模板交互,并有效地融合目标帧和参考帧的全局和局部特征,引入了K最近邻过滤和一个特征聚合变压器。所提出的模型在两个流行的数据集上取得了最先进的性能。此外,我们通过各种比较实验证明了在具有挑战性的场景中提出模型的鲁棒性。
主要内容概述:
这段话讨论了无监督视频对象分割的任务,这是一个具有挑战性的工作,因为复杂背景和多个前景对象的存在。为了应对挑战,作者提出了一个引导式槽注意力网络,这个网络能够加强空间结构信息,实现更好的前景-背景分离。网络中的前景和背景槽通过查询引导初始化,并通过与模板信息的交互进行优化。同时,使用了K最近邻过滤和特征聚合变压器来提升交互和融合特征。该模型在两个数据集上表现出色,并且在挑战性场景中展示了鲁棒性。
概述主要内容:
这段话主要讨论了图像去模糊的进展,特别是提出了一种新的无监督图像去模糊框架。这个框架能够生成伪锐利和模糊图像对,并且引入了新的损失策略以及自我增强策略来提高性能。该方法在真实世界数据集上展示了优越性。
大型视觉-语言模型(VLMs),如CLIP,在无监督领域适应任务中展示了良好的零样本学习性能。然而,大多数针对VLMs的迁移方法要么关注语言分支,要么关注视觉分支,忽视了两种模态之间微妙的相互作用。在这项工作中,我们引入了一个统一模态分离(UniMoS)框架用于无监督领域适应。利用模态间隙研究的洞察,我们设计了一个灵活的模态分离网络,能够清晰地分解CLIP的特征为与语言相关和与视觉相关的组件。我们提出的模态集成训练(MET)方法促进了模态无关信息的交换,同时保持了模态特定的细微差别。我们使用模态判别器对跨领域的特征进行对齐。在三个基准上的全面评估显示,我们的方法以最小的计算成本设定了新的最先进水平。代码:https://github.com/TL-UESTC/UniMoS…
主要内容概述:
这段话介绍了一种名为统一模态分离(UniMoS)的框架,用于无监督领域适应。该框架利用模态间隙研究,能够有效地将CLIP模型的特征分解为与语言和视觉相关的组件。同时,提出了一种模态集成训练(MET)方法,促进模态无关信息的交换,同时保持模态特定的细节。该方法在三个基准测试中取得了最先进的成绩,且计算成本较低。
盲图像质量评估(BIQA)的注释工作既费时又费力,尤其是对于真实图像来说。期望在合成数据上训练能够带来好处,但合成数据训练的模型往往由于领域差距而在真实领域表现出较差的泛化能力。在这项工作中,我们有一个关键观察,即向合成数据集中引入更多失真类型可能不会改善甚至可能对真实图像质量评估的泛化有害。为了解决这一挑战,我们提出了用于BIQA的失真引导的无监督领域适应(DGQA),这是一个新颖的框架,它利用从失真中的先验知识进行自适应多领域选择,以匹配源领域和目标领域之间的数据分布,从而减少来自异常源领域的负转移。在两种跨领域设置(合成失真到真实失真以及合成失真到算法失真)上的大量实验已经证明了我们提出的DGQA的有效性。此外,DGQA与现有的基于模型的BIQA方法是正交的,并且可以与这些模型结合使用,以在较少的训练数据下提高性能。
主要内容概述:
这段话主要讨论了盲图像质量评估(BIQA)中的一个难题,即真实图像的质量评估注释工作非常耗时耗力。现有的在合成数据上训练模型的方法由于领域差异而泛化能力不足。文章提出了一个新的框架,称为失真引导的无监督领域适应(DGQA),它可以通过匹配源领域和目标领域的数据分布来改善模型的泛化能力,减少负转移的影响。通过在两种不同设置下的实验,证明了DGQA的有效性,并且指出DGQA可以与现有的BIQA模型结合使用,以提高性能。
概述主要内容:
这段话介绍了隐式神经表示法在3D形状表示中的重要性,特别是神经符号距离函数(SDF)。然而,从3D点云中学习SDF存在挑战。因此,文章提出了一种新方法,即推断占用场,这是更容易学习的。此外,文中还描述了如何使用不确定性度量和监督方法来改进这一过程,并通过实验证明了该方法的有效性。
主要内容概述:
本文介绍了一种针对特定相机设备的图像去模糊框架,该框架通过转换模糊图像来提高去模糊效果。该方法使用未配对数据进行训练,并展示了在多个基准测试上的优越性能。
生成模型在近年来因其图像生成能力而非常受欢迎。基于GAN的模型因其解耦的潜在空间而受到高度评价,这一关键特性有助于它们在受控图像编辑方面的成功。另一方面,扩散模型作为生成高质量图像的强大工具而出现。然而,扩散模型的潜在空间并没有被彻底探索或理解。现有旨在探索扩散模型潜在空间的方法通常依赖于文本提示来精确指定特定语义。然而,在艺术、时尚或医学等特定领域,可能无法获得或容易构思合适的文本提示,这种做法可能具有限制性,从而限制了现有工作范围。在本文中,我们提出了一种无需依赖文本提示的无监督方法,用于在文本到图像的扩散模型中发现潜在语义。我们的方法采用一组来自特定领域(如人脸或猫)的未标记图像和一个预训练的扩散模型,并使用对比学习目标以无监督的方式发现多样的语义。此外,学习的方向可以同时应用在同一领域(如各种面部编辑类型)或不同领域(如在同一图像中应用猫和面部编辑)而不会相互干扰。我们的广泛实验表明,我们的方法实现了高度解耦的编辑,超过了现有的基于扩散和基于GAN的潜在空间编辑方法。
主要内容概述:
这段话主要讨论了生成模型,特别是GAN和扩散模型在图像生成方面的应用。它指出了扩散模型潜在空间探索的不足,并提出了一种新的无监督方法来发现这些模型中的潜在语义,无需依赖文本提示。该方法能够发现多样语义,并在实验中展示了其优越性,超过了现有方法。
以人为中心的三维场景理解最近因其对机器人学的关键影响而受到越来越多的关注。然而,以人为中心的现实生活场景极其多样化和复杂,人类具有复杂的动作和交互。由于标记数据有限,监督方法难以推广到一般场景,阻碍了现实生活的应用。模仿人类智能,我们提出了一种针对以人为中心场景的无监督3D检测方法,通过将合成人体实例的知识转移到真实场景中。为了弥合合成模型与真实点云在数据表示和特征分布上的差异,我们引入了新颖的模块,用于有效的实例到场景表示转移和合成到真实特征对齐。值得注意的是,与当前最先进的技术相比,我们的方法表现出更优越的性能,在HuCenLife数据集上mAP提高了87.8%,且接近完全监督方法的性能(62.15 mAP vs. 69.02 mAP)。
主要内容概述:
这段话主要讨论了以人为中心的三维场景理解的挑战,并提出了一种新的无监督3D检测方法。由于现实生活场景的复杂性和多样性,监督方法难以广泛应用。因此,研究者提出了一种方法,通过知识转移来处理这个问题。他们还介绍了用于特征对齐和表示转移的新模块,并且该方法在性能上显著提升,接近完全监督方法。
翻译:
类别级别的3D姿态估计在计算机视觉和机器人领域是一个根本性的重要问题,例如对于具体化的代理或用于训练3D生成模型。然而,到目前为止,估计类别级别对象姿态的方法需要大量的人类注释、CAD模型或来自RGB-D传感器的输入。相比之下,我们解决了仅从随意拍摄的对象中心视频中无人工监督地学习估计类别级别3D姿态的问题。我们提出了一个两步流程:首先,我们引入了一个多视图对齐程序,该程序通过新颖且稳健的循环距离公式确定跨视频的规范摄像机姿态,用于几何和外观匹配,使用重建的粗略网格和DINOv2特征。在第二步中,规范姿态和重建网格使我们能够训练一个从单张图像进行3D姿态估计的模型。
主要内容概述:
这段话主要讨论了以下内容:
主要内容概述:
这段话介绍了UnScene3D,这是一种无监督的3D学习方法,用于室内扫描的3D实例分割。该方法通过自我监督的方式生成伪掩码,并在3D段基元上操作,最终通过自我训练进行细化。该方法在无监督3D实例分割上取得了显著改进。
主要内容概述:本文介绍了一种新的无监督高光谱图像恢复方法(HIR-Diff),该方法使用预训练的扩散模型来恢复退化的高光谱图像。该方法有效结合了低秩分解和改进的扩散模型,并通过新颖的指数噪声调度策略加速了恢复过程。实验表明,该方法在多个HSI恢复任务上均优于现有方法。
以下是主要内容概述:
翻译和概述:
稳健的分割对于从大规模医学扫描中获取定量测量至关重要。手动标注成本高昂,MAPSeg是一种UDA框架,具有优越性能。这是首次研究针对医学图像分割的四种域转移,并且MAPSeg是首个在多种UDA情况下应用并保持性能的框架。它在数据集上的表现显著优于之前的方法。
主要内容:
翻译:
这篇论文介绍了一个名为SfmCAD的无监督网络,它能通过学习现代CAD流程中的草图特征建模操作来重建3D形状。
概述:
以下是主要内容:
这段话的主要内容是:
群体稳健性策略旨在减轻深度学习模型中由于训练数据集中存在的虚假相关性而产生的学习偏差。然而,大多数现有方法依赖于获取群体的标签分布,这是耗时且昂贵的。因此,正在寻求无监督的群体稳健性策略。基于这样的洞见:可以根据可解释性热图准确推断出训练有素的模型的分类策略,我们引入了ExMap,这是一种无监督的两阶段机制,旨在增强传统分类器中的群体稳健性。ExMap利用聚类模块根据模型的解释性热图推断伪标签,然后这些伪标签在训练中代替实际标签使用。我们的实证研究表明ExMap的有效性——我们证明它缩小了与监督对应物的性能差距,并且优于现有的部分监督和无监督方法。此外,ExMap可以无缝地与现有的群体稳健性学习策略集成。最后,我们展示了它在应对多种捷径缓解这一新兴问题上的潜力。
主要内容概述:
本文讨论了群体稳健性策略在减轻深度学习模型中的偏差问题,并提出了一种名为ExMap的无监督方法。该方法不需要获取群体的标签分布,而是通过模型的可解释性热图来推断伪标签,以增强模型的群体稳健性。研究表明,ExMap能够有效提高模型性能,与监督方法相比表现良好,并且可以与现有的群体稳健性策略相结合使用,还能应对多种捷径问题。
深度学习方法在解决盲超分辨率(BSR)问题方面取得了显著的成功。然而,其中大多数方法需要对标记数据集进行监督预训练。本文提出了一种名为动态内核先验(DKP)的无监督内核估计模型,以实现一种无监督且无需预训练的学习型算法来解决BSR问题。DKP能够自适应地学习动态内核先验,以实现实时内核估计,从而实现更优的高分辨率图像恢复性能。这是通过对随机内核分布进行马尔可夫链蒙特卡洛采样过程实现的。然后,将学习的内核先验分配给优化模糊内核估计网络,该网络包含基于网络的朗之动力学优化策略。这两种技术确保了内核估计的准确性。DKP可以轻松地替代现有方法中的内核估计模型,如Double-DIP和FKP-DIP,或者添加到现成的图像恢复模型中,如扩散模型。在本文中,我们将我们的DKP模型与DIP和扩散模型结合,分别称为DIP-DKP和Diff-DKP进行验证。在高斯和运动内核场景的广泛模拟中,提出的DKP模型显著提高了内核估计,且运行时间和内存使用相当,达到了最先进的BSR结果。代码可在https://github.com/XYLGroup/DKP获取。
主要内容概述:
这段话主要介绍了作者提出的一种名为动态内核先验(DKP)的无监督内核估计模型,用于解决盲超分辨率问题。DKP模型无需监督预训练,能够自适应学习动态内核先验,并通过马尔可夫链蒙特卡洛采样过程实现实时内核估计。该方法提高了高分辨率图像恢复的性能,并且可以轻松集成到现有方法中。通过模拟验证,DKP模型在内核估计方面取得了显著改进,达到了最先进的BSR结果。
无监督视频对象分割(VOS)的目标是检测并分割视频中最显著的对象。无监督VOS中使用的主要技术包括:1)外观和运动信息的协作;2)不同帧之间的时间融合。本文提出了两种新颖的基于原型的注意力机制——跨模态注意力(IMA)和跨帧注意力(IFA),通过在不同模态和帧之间进行密集传播来融合这些技术。IMA基于相互精化密集地整合来自不同模态的上下文信息。IFA将视频的全局上下文注入到查询帧中,使得能够充分利用多个帧的有用属性。在公共基准数据集上的实验结果表明,我们提出的方法大幅优于所有现有方法。所提出的两个组成部分也通过消融研究得到了彻底验证。
主要内容概述:
这段话主要讨论了无监督视频对象分割(VOS)的目标和技术,并提出了一种新的方法。该方法包括两种基于原型的注意力机制——IMA和IFA,用于整合外观、运动信息以及不同帧之间的时间融合。实验证明,这种方法优于现有方法,并且两个组成部分也通过研究得到了验证。
概述:
这段话主要内容是介绍了一种新的动作分割方法,该方法适用于长未剪辑视频。该方法通过解决最优传输问题来实现,并且不需要知道动作顺序即可保持时间一致性。此外,该方法在无监督学习设置中表现有效,并在多个数据集上取得了先进结果。