打通文本和图像的一种预训练模型。
1.arxiv:https://arxiv.org/pdf/2103.00020.pdf
2.framework:
整个框架还是比较简单的,将test image的特征与keys相乘,由于这些特征都是L2正则化后的,所以这一乘就相当于得到了我们test image和keys之间的相似度,然后载通过φ函数后与Lables相乘得到cache model的prediction,然后用一个残差连接将CLIP的输出与cache model的输出combine,得到最后的预测结果。
下面罗列出具体的公式
看了原文,fine-tuning的是Clip’s visual encoder
有了CLIP的基础后,这篇paper还是比较好懂的。
补充学习:
【Linear Probing | 线性探测】深度学习 线性层