CLIP: Learning Transferable Visual Models From Natural Language Supervision学习笔记

文章目录

      • 1.预训练阶段
      • 2.zero-shot推理阶段
      • 3.模型整体结构的伪代码
      • 4.训练

  • Alec Radford, Jong Wook Kim et.al. PMLR, 2021.(Citations 6185)

  • CLIP(Contrastive Language-Image

  • Pretraining)是一种基于对比学习的模型,由OpenAI提出。它是一种多模态模型,旨在将自然语言和图像进行联合建模,实现图像和文本之间的语义对齐。

  • CLIP的核心思想是通过训练一个神经网络模型,使其能够同时理解图像和文本表示,并将它们映射到一个共享的嵌入空间中。这个嵌入空间使得相关的图像和文本在特征空间中更接近,而不相关的图像和文本则更远离。通过对比学习的方法,CLIP使得图像和文本能够在嵌入空间中形成对应关系,从而能够进行跨模态的语义匹配和推理。

  • CLIP的训练过程包括两个阶段:预训练和zero shot 推理。在预训练阶段,CLIP使用大规模的图像和文本数据集进行训练,通过自监督学习的方式学习图像和文本的表示。在zero shot 推理阶段,CLIP使用有标签的图像和文本数据进行进一步训练,以提高模型在特定任务上的性能。

  • CLIP的优势在于它不需要大量的有标签数据就能实现强大的多模态能力,因为它是通过对比学习来学习表示,而不是通过传统的有监督学习方法。这使得CLIP在处理各种语言和图像任务时具有很强的泛化能力。

  • CLIP已经在多个任务上展示出了出色的表现,如图像分类、图像生成、文本分类等。它不仅能够对图像和文本进行联合理解,还可以在不同任务之间进行迁移学习,从而提高模型的效能和效率。

  • 论文最重要的点是利用自然语言信号来训练一个比较好的视觉模型

你可能感兴趣的:(学习,笔记,深度学习,人工智能,计算机视觉)