En-Compactness:Self-Distillation Embedding&Contrastive Generation forGeneralized Zero-Shot Learning

1.引言

基于大量标记数据的图像分类任务[6,16,23]由于深度学习的进步取得了巨大的进展[13,21,55]。然而,深度模型对数据的强烈依赖性使其在某些类别缺乏或甚至没有标记数据的情况下表现不佳[47]。零样本学习(ZSL)[24,35]被提出来解决这一数据缺失问题,通过识别来自未见过类别的对象。首先,它们在已见过的类别上学习分类模型,这些类别提供了训练样本,然后使用类别级别的语义描述符[10,24,31,32]将模型迁移到未见过的类别,例如视觉属性[10,24]或单词向量[31,32]。

与ZSL不同,广义零样本学习(GZSL)[7,50]旨在识别来自已见和未见类别的测试样本,这更具挑战性。由于训练集仅包含已见类别的样本,在测试期间,GZSL方法往往会将未见类别的样本误分类为已见类别,这是普遍存在的强偏见问题。

近年来,基于特征生成的广义零样本学习(GZSL)方法[11,14,15,26,28,38]已被提出,通过在语义描述符的条件下合成未见类别的训练样本,以缓解强偏见问题。这些方法将真实的已见训练特征与合成的未见特征相结合,得到一个完全观察到的数据集,用于训练GZSL分类模型,如softmax分类器。早期的特征生成方法[11,26,28,38]在视觉特征空间中合成特征,该空间缺乏区分能力[8,14]。最近,一些方法[14,15]基于类间关系寻找用于GZSL分类器训练的新嵌入空间。具体而言,RFF-GZSL[15]将视觉特征映射到一个无冗余空间,并使用中心损失[48]来加强该空间中已见类别的关系。CE-GZSL[14]进行实例级和类别级对比监督以提高嵌入空间的区分性。然而,在上述方法中,嵌入空间受到已见类别之间关系的严格约束,这对于合成的未见类别特征不友好。此外,未见类别的合成特征具有各种分布,因此将它们映射到嵌入空间将形成混乱的分布。正如图1(a)所示,已见类别的嵌入具有较大的类间距离,而未见类别的嵌入重叠且缺乏区分度。因此,在这种嵌入空间中训练GZSL分类器将导致性能较差。相反,由于类内关系是独立于类别的,如果我们加强这些已见类别的类内关系,嵌入空间也可以在不同类别之间实现更好的泛化能力。如图1(b)所示,尽管类间关系并没有受到严格限制,但紧凑的类内分布可以帮助所有类别(已见和未见)互相区分。

在本文中,我们提出了一种用于GZSL的类内紧凑性增强方法(ICCE)。我们的ICCE在嵌入空间和视觉特征空间中促进已见和未见类别的类内紧凑性和类间分离性。通过更加注重类内关系而不是类间结构,我们可以更好地区分不同的类别。具体而言,我们通过自知识蒸馏嵌入(SDE)模块和语义-视觉对比生成(SVCG)模块产生紧凑的类内分布。SDE模块采用师生结构,对来自同一类别的两个不同样本的表示和预测的logits进行对齐。使用SDE,我们可以减少类内变化,并在嵌入空间中为每个类获取紧凑的分布。SVCG模块是一个有条件的生成对抗网络(GAN),它使用实例级语义-视觉对比损失在视觉特征空间中为未见类别合成紧凑的分布特征。实验证明,我们的ICCE在四个数据集上优于现有技术,并在其余数据集上取得了竞争性的结果。

我们的贡献有三点:
(1)我们提出了一种GZSL的类内紧凑性增强方法(ICCE)。我们的ICCE在嵌入空间和视觉特征空间中促进已见和未见类别的类内紧凑性和类间分离性;
(2)我们提出了一种自知识蒸馏嵌入(SDE)模块,通过表示蒸馏损失和归一化logits蒸馏损失学习类内紧凑的嵌入空间;
(3)我们提出了一种语义-视觉对比生成(SVCG)模块,通过实例级语义-视觉对比损失为未见类别合成紧凑的类内分布特征。

2.Related Work

Generalized Zero-Shot Learning(GZSL).

Zero-Shot Learning (ZSL)旨在训练一个分类器,使其能够识别在训练集中不存在的未见类别的对象,而该分类器是在已见类别上进行训练的。在提供了已见和未见类别的语义描述符的情况下,早期的ZSL方法[24, 37, 49, 59]将它们与嵌入空间中的视觉特征相关联。它们通过在这个嵌入空间中搜索最近的类别级语义描述符来识别未见样本。与ZSL不同的是,ZSL只在测试阶段识别未见类别样本,而更具挑战性的广义零样本学习(GZSL)提出了在测试阶段同时识别来自已见和未见类别的测试样本。然而,由于ZSL的不平衡性质,在GZSL场景下,早期的ZSL方法往往偏向于已见类别。为了缓解这种偏差问题,一些方法[3, 7, 29]设计了新的损失函数以平衡对已见和未见类别的预测,而其他方法[9, 22, 30]将GZSL问题视为一种分布外检测问题进行解决。最近,一些基于特征生成的方法已被提出,用于在语义描述符的条件下合成未见类别的特征[26, 28, 39, 51]。然后,它们将生成的未见样本与真实的已见样本结合起来训练一个softmax分类器。具体而言,RFF-GZSL[15]和CE-GZSL[14]推测视觉特征空间缺乏判别能力,并在GZSL分类器训练中寻找一个新的嵌入空间。然而,这些方法都基于已见类别的类相关性构建嵌入空间。结果,嵌入空间对已见类别过度拟合,导致在未见类别上的泛化能力较差。相反,我们加强了类内关系而非类间结构。

待更新

你可能感兴趣的:(人工智能)