DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting(CVPR2022 )

知识补充:

监督学习(Supervised Learning): 在监督学习中,模型接收带有标签的数据作为输入,其中每个样本都有一个对应的标签或输出。模型的目标是学习如何将输入映射到正确的输出,从而最小化预测与真实标签之间的误差。在训练过程中,模型通过调整参数来最小化损失函数,使得预测值与真实标签之间的差距最小化。监督学习适用于分类和回归等任务。

自监督学习(Self-Supervised Learning): 自监督学习是一种无监督学习的变体,其中模型从未标记的数据中自动学习有用的表示。与监督学习不同,自监督学习不需要人工标记的标签。相反,模型通过将输入数据转换为不同形式的数据或预测输入的某些部分来学习。例如,自监督学习可能要求模型通过输入的一部分来预测输入的其他部分,或者将输入的数据转换为另一种形式,然后再将其转换回来。自监督学习通常用于预训练模型,以生成有用的表示,并在监督学习任务上进行微调。

总的来说,监督学习依赖于带有标签的数据来进行训练,而自监督学习则尝试从未标记的数据中学习有用的表示。自监督学习的目标是通过最大程度地利用数据的丰富结构来自动学习表示,而无需显式标签。

摘要

最近的进展表明,使用对比图像-文本对的大规模预训练可以从自然语言监督中学习高质量的视觉表示。得益于更广泛的监督来源,这种新范式表现出令人印象深刻的下游分类任务和数据集的可转移性。然而,将从图像-文本对中学到的知识转移到更复杂的密集预测任务的问题却很少被研究。在这项工作中,我们通过隐式和显式地利用来自CLIP的预训练知识,提出了一个新的密集预测框架。具体来说,我们将CLIP中的原始图像-文本匹配问题转换为像素-文本匹配问题,并使用像素-文本得分映射来指导密集预测模型的学习。通过进一步使用图像中的上下文信息来提示语言模型,我们能够促进我们的模型更好地利用预训练的知识。我们的方法与模型无关,可以应用于任意密集预测系统和各种预训练的视觉主干,包括CLIP模型和ImageNet预训练模型。大量的实验证明了我们的方法在语义分割、对象检测和实例分割任务上的优越性能。代码可从https: //github.com/raoyongming/DenseCLIP获得。

1.引言

提出问题:最近,为了更好地将CLIP模型转移到下游的视觉分类任务,已经做出了一些努力,采用了NLP领域的提示工程[28]。提出了几种基于学习的提示方法[13,51,56,60]来修改语言模型的输出,以更好地适应新的任务。然而,他们主要关注的是通过图像-文本匹配将CLIP模型转移到分类任务中,这更接近于原始的预训练任务。将知识学习从图像-文本对转移到更复杂的密集预测任务和更通用的设置的问题很少被访问。

"prompt engineering" 指的是从自然语言处理(NLP)领域引入的提示工程方法。在NLP中,提示工程是指设计和构建提示(prompt)或查询,以便有效地利用语言模型进行特定任务的推理或分类。在这种情况下,研究人员尝试将NLP领域中的提示工程方法应用于视觉任务,以更好地将CLIP模型迁移到下游的视觉分类任务中。这种方法旨在利用语言模型的能力来指导视觉任务的执行,从而提高模型在视觉任务中的性能。

提出DenseCLIP:

在本文中,我们研究了如何微调预训练的CLIP模型来完成密集的预测任务。与传统的ImageNet预训练模型相比,一个明显的挑战是上游对比预训练任务和下游逐像素预测任务之间的差距,前者涉及图像和文本的实例级表示,而后者仅基于像素级的视觉信息。为了解决这个问题,我们提出了一个新的语言引导密集预测框架DenseCLIP。如图1 (b)所示,它通过隐式和显式地利用CLIP模型的预训练知识,设计用于各种密集预测任务。利用预训练知识的隐式方法是直接对下游数据集上的模型进行微调。

我们的结果表明,通过对超参数进行一些修改,CLIP模型可以优于传统的ImageNet预训练模型(参见图2中的CLIP结果)。但是直接的方法不能充分利用CLIP模型的潜力。受CLIP中原始对比学习框架的启发,我们提出将CLIP中原始的图像-文本匹配问题转化为像素-文本匹配问题,并使用像素-文本分数映射明确地指导密集预测模型的学习。通过使用Transformer[40]模块进一步使用图像中的上下文信息来提示语言模型,我们能够通过优化文本嵌入来促进我们的模型更好地利用预训练的知识

优化文本嵌入指的是调整文本的表示方式,使其更好地与图像特征相匹配,以便在密集预测任务中更好地指导模型的学习过程。

我们的方法可以是一个即插即用的模块,以改进CLIP预训练模型在现成的密集预测方法和任务上的微调。通过将我们的方法应用于具有挑战性的ADE20K[59]数据集上流行的语义分割框架语义FPN[21],与ImageNet预训练模型相比,我们展示了+4.9%,+4.7%和+2.3%的mIoU改进,与基于ResNet-50, ResNet101[18]和vitb - b[12]的CLIP模型的vanilla微调相比,我们分别显示了+3.9%,+2.4%和+1.2%的mIoU改进。我们还观察到目标检测和实例分割任务的显著改进。值得注意的是,我们展示了一个配备了我们的方法和轻量级语义FPN解码器的ResNet-101模型,在ADE20K上可以实现46.5%的mIoU,仅用1/3的计算就优于DeepLabV3+[7]和UperNet[45]等最先进的解决方案。

此外,我们的框架还可以应用于任何骨干模型,通过使用预训练的语言模型来指导密集预测任务的训练。通过将DenseCLIP应用于ImageNet预训练的ResNets[18]和最近的Swin transformer[29],我们观察到显著的改进,并且计算开销很小。我们希望我们的方法能够成为一种新的通用范式,在预训练语言模型的指导下改进密集预测模型。

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting(CVPR2022 )_第1张图片

图1:传统的“预训练+微调”模式与我们提出的DenseCLIP的比较。预训练+微调范式直接应用图像预训练模型作为编码器的初始化。不同的是,DenseCLIP通过引入新的像素文本匹配任务,并进一步使用图像中的上下文信息来提示预训练的语言模型,将通过图像-文本对比学习学到的知识转移到密集预测模型中。

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting(CVPR2022 )_第2张图片
图2:不同预训练和微调策略对语义分割任务的影响。我们报告了不同预训练的ResNet50[18]模型在ADE20K[59]上的单尺度和多尺度mIoU,包括有监督的ImageNet1K [11] (IN1K)和ImageNet21K [11,36] (IN21K),自监督的MoCoV2[9]和DenseCL[43],以及视觉语言模型CLIP。与常用的ImageNet预训练相比,配备DenseCLIP的大规模视觉语言预训练可以显著提高密集预测性能(+4.9%/+4.1%)。

2. Related Work

预训练和微调。在过去的十年里,计算机视觉的革命是由“预训练+微调”范式驱动的。具体来说,它首先以监督学习[12,18,29,34]或自监督学习[3,8,15,16]的方式在大规模数据集(例如ImageNet [11], JFT [38], Kinetics[4]等)上预训练模型,然后在各种下游任务上对模型进行微调。在NLP领域中,该框架也得到了类似的广泛使用[2],最近发展成为一种提示范式[28],其中下游任务被重新制定,以模拟原始预训练过程中解决的任务。受这些工作的启发,我们探索将大规模视觉语言预训练模型中的知识转移到下游的密集预测任务中。

视觉语言模型。在计算机视觉与自然语言处理领域的交互方面已经有了一系列的研究成果,如文本到图像检索[44]、图像标题[48]、视觉问答[1]、参考分割[19,49,50]等。在这些工作中,视觉语言预训练在过去几年受到越来越多的关注[24,32,37]。作为里程碑,Radford等人设计了一个名为CLIP的大规模预训练模型[33],该模型在大量的图像-文本对上采用了对比学习策略,并在30个分类数据集上显示出令人印象深刻的可转移能力。在这项工作的激励下,已经提出了许多后续研究来改进训练策略(例如CoOp [60], CLIPAdapter [13], Tip-adapter[56]

你可能感兴趣的:(深度学习,图像处理,学习,笔记)