CLIP论文阅读:Learning Transferable Visual Models From Natural Language Supervision

介绍

CLIP是OpenAI2021年的工作,思想比较简单,利用对比学习的思想将图文特征对齐,完成一些理解型任务。他的训练数据是400milion图文对。最大的贡献是为大家提供了这样一个经过对齐的视觉特征提取模型,后续很多工作中视觉提取模型都是利用CLIP训练的VIT。

全文太长了,写的很仔细,比较难懂。只读了实验部分之前的。记录的是对原文翻译进行简单总结的内容。

摘要

       ~~~~~~        目前一些图像分类模型在有图像标签的分类数据上训练后可以达到很好的效果,但是这需要额外的标签数据,这种受限的监督形式限制了模型的通用性和可用性。因此作者提出从原始文本中直接学习图像信息,这可以利用更广泛的监督来源。作者在一个从互联网收集的包含4亿图文对的数据集上训练,证明了预测哪个标题与哪张图片匹配的简单预训练任务是一种高效且可扩展的方法,能够学习到SOTA图像表示。
       ~~~~~~        预训练后,可以直接使用自然语言实现下游任务的零样本迁移。在超过30个不同的现有计算机视觉基准数据集上进行测试,包括OCR、视频中的动作识别、地理定位以及多种细粒度对象分类。

引言:

       ~~~~~~       在过去几年中,NLP领域受益于从无监督的原始文本中预训练(BERT)。诸如自回归和掩码语言建模等任务无关的目标已经在计算能力、模型容量和数据规模上实现了多个数量级的扩展,持续提升了模型的能力。“文本到文本”形式的标准化输入输出接口,使得这种任务无关架构能够零样本迁移到下游数据集,消除了对专用输出头或数据集特定定制的需求。

       ~~~~~~       这些结果表明,在网络规模的文本集合中,现代预训练方法所能获得的总体监督超过了高质量众包标注的NLP数据集。然而,在计算机视觉等其他领域,人们仍然主要依赖像ImageNet这样的标注数据集来训练模型。作者提出,如果能在计算机视觉领域也采用类似的方法,直接从网络文本中学习,可能会带来类似的突破。

       ~~~~~~        20多年前,Mori等人(1999)探索了通过训练模型预测与图像配对的文本文档中的名词和形容词来改进基于内容的图像检索。夸托尼等人( 2007 )展示了通过流形学习在分类器的权重空间中学习更高效的数据图像表示是可能的,这些分类器被训练用来预测与图像配对的标题中的文字。斯里瓦斯塔瓦&萨拉赫丁诺夫( 2012 )通过在低层图像和文本标签特征上训练多模态深度玻尔兹曼机来探索

你可能感兴趣的:(多模态模型,论文阅读,机器学习,深度学习,人工智能)