CV论文--2024.2.20

1、PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter

中文标题:PaLM2-VAdapter:逐步对齐的语言模型打造强大的视觉语言适配器

简介:本文展示了渐进式对齐语言模型在连接冻结的视觉编码器和大型语言模型方面的有效性。尽管视觉编码器和大型语言模型的基本架构和预训练方法已经广泛研究,但在最近的研究中,视觉-语言适配器的架构和训练策略存在很大差异。我们的研究全面探索了最先进的感知重采样器架构,并建立了一个强大的基线。然而,我们观察到感知器重采样器的视觉-语言对齐存在收敛缓慢和可扩展性有限的问题,并且缺乏直接监督。

为了解决这个问题,我们提出了PaLM2-VAdapter,它采用渐进式对齐语言模型作为视觉-语言适配器。相比于使用感知器重采样器的强大基线,我们的方法在实践中展现出更快的收敛速度、更高的性能和更强的可扩展性。我们在各种图像和视频的视觉问答和字幕任务上进行了大量实验,证明了我们的模型具备最先进的视觉理解和多模态推理能力。

值得注意的是,我们的方法在比最先进的大型视觉-语言模型少30~70%的参数下实现了这些进步,标志着显著的效率提高。

2、3D Diffuser Actor: Policy Diffusion with 3D Scene Representations

中文标题:3D 扩散器 Actor:具有 3D 场景表示的策略扩散

简介:我们将扩散策略和3D场景表示相结合,应用于机器人操作。扩散策略利用条件扩散模型来学习基于机器人和环境状态的动作分布。最近的研究表明,扩散策略相比确定性和其他状态条件下的动作分布学习方法具有更好的性能。另一方面,3D机器人策略使用从单个或多个摄像机视图中感测的深度聚合来表示3D场景特征。这种方法在泛化能力和跨摄像机视角方面表现出优势。

我们将这两个方向的工作结合起来,并提出了一种名为3D Diffuser Actor的神经策略架构。在给定语言指令的情况下,它构建了视觉场景的3D表示,并在此基础上进行条件迭代,以减少3D旋转和机器人末端执行器的平移误差。在每个迭代中,我们的模型将末端执行器的姿态估计表示为3D场景令牌,并使用3D相对关注其他3D视觉和语言令牌来特征化它们,从而预测每个令牌的3D平移和旋转误差。

3D Diffuser Actor在RLBench数据集上表现出了新的最先进性能,多视图设置下的绝对性能提高了16.3%,单视图设置下的绝对性能提高了13.1%。在CALVIN基准测试中,它在零-shot未见场景泛化设置中能够成功完成0.2个任务(相对增加了7%),超过了当前的最新技术。此外,它还能够从少量演示中在现实世界中工作。

我们还探究了模型的架构设计选择,例如3D场景特征化和3D相对关注,并证明它们对于泛化能力的提升起到了积极的作用。我们的结果表明,3D场景表示和强大的生成建模是从演示中有效学习机器人的关键因素。

3、Universal Prompt Optimizer for Safe Text-to-Image Generation

中文标题:用于安全生成文本到图像的通用提示优化器

简介:文本到图像(T2I)模型在根据文本提示生成图像方面表现出色。然而,这些模型容易受到不安全输入的影响,从而生成不安全的内容,如色情、骚扰和非法活动图像。现有的方法,包括基于图像检查器、模型微调和嵌入式阻止的研究,在实际应用中并不切实际。

为了解决这个问题,我们提出了第一个适用于黑盒场景下安全T2I生成的通用提示优化器。我们首先使用GPT-3.5 Turbo构建了一个包含有毒-清洁提示对的数据集。为了指导优化器将有毒提示转换为清洁提示,并保留语义信息的能力,我们设计了一种新颖的奖励函数,用于评估生成图像的毒性和文本对齐度,并通过近端策略优化进行训练。

实验结果表明,我们的方法可以有效地减少各种T2I模型生成不适当图像的可能性,而不对文本对齐产生显著影响。此外,我们的方法还可以与其他方法灵活结合,以实现更好的性能。

你可能感兴趣的:(人工智能,计算机视觉)