ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》

目录

  • 0 Abstract
    • 回顾CLIP
    • 内容
    • Keywords
  • 1 Introduction
  • 2 Tip-Adapter Framework
  • 3 Tip-Adapter-F framework
  • Conclusion

0 Abstract

回顾CLIP

打通文本和图像的一种预训练模型。
1.arxiv:https://arxiv.org/pdf/2103.00020.pdf
2.framework:
ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第1张图片

内容

  1. 指出CLIP这样的对抗vision-language预训练模型通过利用大规模的text-image数据对展示了其出色的performance。
  2. 这篇文章中,作者提出了一种 Training-free adaption method for CLIP module来执行小样本分类任务,简写为Tip-Adapter。不仅继承了zero-shot CLIP不用训练(training-free)的优点,而且性能与那些需要训练的方法表现相当!
  3. 这个Adapter通过一个来自小样本训练集的key-value cache model来构建,并通过特征检索更新CLIP中编码了的先验知识。
  4. Tip-Adapter在ImageNet上达到了SOTA,并且epochs是其他现存方法的十分之一,多么有用和高效。
  5. 在11个datasets上进行了充分的小样本分类实验,证明了Tip-Adapter的优越性。

Keywords

  • Vision-language learning
  • few-shot classification
  • cache model

1 Introduction

  1. 作者试图找到一种不像CoOp、CLIP-Adapter的方法(这两种方法虽然相比于Zero-shot CLIP、Linear-probe CLIP在小样本分类任务上表现更好,但引入了learnable parameter、fine-tuning耗费了更多的计算资源),能同时利用zero-shot的training-free和few-shot classification的strong performance of training required。
  2. 提出了Tip-Adapter,主要是在冻结了权重的模型上使用一个non-parametric adapter。(CLIP-Adapter用了parametric feature adapter)所以CLIP不用训练、Adapter也不需要训练。少样本的知识通过Adapter的cache model被充分利用了起来。
  3. 这个non-parametric adapter被设计成了query-key形式的cache model
    “Specifically, Tip-Adapter extracts visual features of few-shot images by CLIP’s visual encoder and transforms their corresponding labels into one-hot encodings. Then, a cache model containing few-shot visual features and one-hot labels is created, which are viewed as paired keys and values.”
  4. 最后Adapter的输出使用residual connection与CLIP的输出连接起来。
  5. 作者甚至将Tip-Adapter拓展到了Tip-Adapter-F,就是将原本的cache model中的keys解冻、变成了learnable parameters,可以fine-tuning了。实验表明这样拓展后只需要20epochs在ImageNet上就达到了SOTA。下表是与existing methods比较结果。
    ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第2张图片
    ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第3张图片

2 Tip-Adapter Framework

ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第4张图片
整个框架还是比较简单的,将test image的特征与keys相乘,由于这些特征都是L2正则化后的,所以这一乘就相当于得到了我们test image和keys之间的相似度,然后载通过φ函数后与Lables相乘得到cache model的prediction,然后用一个残差连接将CLIP的输出与cache model的输出combine,得到最后的预测结果。
下面罗列出具体的公式
ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第5张图片
在这里插入图片描述
在这里插入图片描述

3 Tip-Adapter-F framework

ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第6张图片
看了原文,fine-tuning的是Clip’s visual encoder
ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第7张图片
ECCV 2022《Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification》_第8张图片

Conclusion

有了CLIP的基础后,这篇paper还是比较好懂的。
补充学习:
【Linear Probing | 线性探测】深度学习 线性层

你可能感兴趣的:(FSS,Paper,Notes,计算机视觉)