(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成

LAFITE2: Few-shot Text-to-Image Generation

公众号:EDPJ(添加 VX:CV_EDPJ 或直接进 Q 交流群:922230617 获取资料)

目录

0. 摘要

1. 简介

2. 预备知识:探测多模态特征空间

3. 提出的方法:检索然后优化 

3.1. 伪文本特征合成:一种检索增强方法 

3.2. 伪文本特征精练:对比潜在优化 

3.3. LAFITE2 模型实例化 

4. 实验 

4.1. 无监督预训练 

4.2. 零样本和少样本任务迁移 

4.3. 消融研究

5. 结论

S. 总结

S.1 主要贡献

S.2 方法和架构


0. 摘要

文本到图像生成模型在近年来取得了显著的进展,现在可以从任意文本生成引人注目的逼真图像。然而,大多数这类模型都是在规模庞大的图像-文本配对数据集上训练的,这对许多研究人员来说可能不可承受。在本文中,我们提出了一种新颖的方法,用于在仅包含图像的数据集上预训练文本到图像生成模型。该方法考虑了检索-优化的过程来合成伪文本特征:对于给定的图像,首先检索相关的伪文本特征,然后进行优化以获得更好的对齐。 所提出的方法的要求较低,具有很高的灵活性和可用性:它可以有益于各种设置,包括少样本、半监督和全监督学习;它可以应用于不同的模型,包括生成对抗网络(GAN)和扩散模型。广泛的实验证明了所提出方法的有效性。例如,在 MS-COCO 数据集上,我们的 GAN 模型在全监督设置下实现了 6.78 的 Fréchet Inception Distance(FID),创下了 GAN 在全监督设置下的新最佳成绩(SoTA)。我们的扩散模型在零样本和监督设置下分别实现了 8.42 和 4.28 的竞争性 FID 分数,尽管与现有 SoTA 扩散模型相比,模型规模要小得多。

1. 简介

文本到图像(T2I)生成是计算机视觉中一个吸引人的研究课题,因为它使用自然语言作为指令具有灵活性,并且近年来生成的图像具有高保真度。通用的文本到图像生成仍然具有挑战性,因为不同模态之间的难以融合。为了解决这个问题,已经投入了大量工作,通过设计新的巨大生成模型并在规模庞大的图像-文本配对数据集上进行训练,已经取得了重大进展。从 DALL-E [27] 开始,现在可以使用任意文本输入执行零样本文本到图像生成。这迅速启发了几项后续工作,包括 CogView [6]、潜在扩散模型(LDM)[29]、GLIDE [21] 和 DALL-E2 [26]。这些工作通过将扩散模型 [5, 11] 纳入模型设计中,进一步提高了人类判断和定量评估的结果,在其他生成任务中取得了令人印象深刻的成果。

然而,上述方法也存在各自的缺点,阻碍了它们的广泛使用。例如,这些模型通常由数十亿个参数组成,因此需要在数亿的图像-文本配对上进行训练。高计算成本和对高质量规模庞大数据集的需求可能成为社区中大多数研究团队的主要障碍。此外,尽管这些模型在处理任意文本方面能力强大,但它们在少样本迁移性方面的研究较少。我们认为这实际上是实践中非常重要的能力,特别是当一个人希望生成具有特定风格或在有限领域内的定制领域的图像样本时,这些样本的配对图像-文本样本有限。在文献中,已经知道使用有限样本训练和微调大型无条件生成模型并不是一项容易的任务 [13, 22, 42, 43],更不用说需要考虑图像质量之外还需要考虑图像文本对应。这使得少样本文本到图像生成比无条件生成更具挑战性。

与这些模型不同,LAFITE [44] 和 KNN-Diffusion [1] 探索了一种新的方向,即无监督或所谓的无语言方法。与前面提到的需要在图像-文本对上进行训练的生成模型不同,它们提出了仅使用图像样本训练文本到图像生成模型的方法,利用了 CLIP [25] 的多模态特征空间。因为 CLIP 被训练成将图像和文本编码到相同的多模态特征空间中,所以在 CLIP 图像特征的条件下的模型也可以使用 CLIP 文本特征进行推断。这些方法要便宜得多,因为图像样本可以很容易地收集,而高质量的图像-文本对需要更多的额外工作,包括人工标题和筛选。然而,与全监督方法和前面提到的大型模型相比,这些无语言模型的性能仍然不令人满意。 

在这项工作中,我们进一步利用了无监督文本到图像生成模型,并主张这个框架非常适合少样本条件生成。从分析以前的无语言和全监督方法之间的性能差距开始,我们提出了一种新的无语言方法,取得了新的最新技术。

我们的主要贡献可以总结如下:

  • 我们提出了用于无语言文本到图像生成的 LAFITE2,包括两种合成伪文本特征的新技术:检索增强伪文本特征构建和潜在特征优化。

  • 我们将所提出的技术分别应用于两种广泛使用的 T2I 模型家族。这导致了两种模型:(1) 当应用于基于 GAN 的方法,如 LAFITE [44] 时,得到 LAFITE2_GAN,(2) 当应用于基于扩散的方法,如 LDM [29] 时,得到 LAFITE2_LDM。LAFITE2 在各种场景中表现出良好的可迁移性,有益于少样本、半监督和全监督的文本到图像生成。

  • 我们展示了提出的 LAFITE2 在全监督文本到图像生成中获得了 GAN 的新的最新技术结果,在 MS-COCO [19] 上具有 6.78 的 Frechet Inception Distance(FID)分数。LAFITE2 还在无语言设置中获得了新的最新技术结果。此外,它还在相对于特别大型模型的最新技术结果上展示了可比的零样本结果。

2. 预备知识:探测多模态特征空间

通过在 CLIP 的多模态联合特征空间中生成伪图像-文本对,LAFITE [44] 能够从仅包含图像数据的数据中学习图像-文本对应关系并执行文本到图像生成。然而,如 [44] 所示,使用伪图像-文本对进行训练的定量结果要比使用真实图像-文本对进行训练的结果差得多。我们怀疑这是因为生成的虚假文本特征的一部分可能与真实标题的文本特征有太大的不同。

为验证这一假设,我们进行了一个消融研究。我们从 MS-COCO [19] 数据集中随机抽样了10,000张图像和它们相关的50,000个标题,并按照 [44] 中的方法构建了图像 x_i 的伪文本特征 {h_ij},如下所示:

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第1张图片

其中,f_img 代表 CLIP 的图像编码器,下标 j 用于区分相同图像 x_i 的不同伪特征。我们在 CLIP 的多模态特征空间内计算图像-文本和文本-文本的余弦相似性,它们的分布在图 1 中绘制出来。尽管伪图像-文本对和真实图像-文本对的相似性分布有很大的重叠,但从图 1 中可以看出,LAFITE 生成的伪文本特征与真实文本特征相当不同。从与不同图像关联的文本特征的相似性来看,我们还可以看到 CLIP 文本编码器的有效输出空间非常小,而伪文本特征占据了一个更大的区域。最近的一项研究 [18] 也揭示了与此相关的现象,即多模态模型如 CLIP 的特征空间中,来自不同编码器的特征集中在特征空间的不同狭锥内,不同的模态实际上在多模态特征空间中没有很好地对齐。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第2张图片

我们现在解释上述观察对文本到图像生成任务中模型性能的影响。我们使用 I 和 T 来表示两个有效的输出空间,即图像和文本编码器的所有可能输出的集合,如图 1 所示。我们使用蓝色实线的球形锥形代表 I,而红色虚线对应 T。使用等式(1)生成的所有可能伪文本特征的集合表示为 H_ξ,用黑色虚线表示。H_ξ 是通过向图像特征添加噪声构建的,因此 I ∈ H_ξ。与 [18] 一样,我们不假设 I 和 T 之间重叠。然而,即使它们重叠,我们将要提出的结论仍然成立。

为了确保模型能够学习图像与文本的对应关系,H_ξ 必须与 T 重叠,以便一些生成的伪文本特征位于 T 内。根据(1),H_ξ 必须足够大,以实现重叠。从 [44] 可以看出,LAFITE 在ξ=3 时取得了最佳结果,这意味着已经注入了大量噪声。然而,这样大的扰动也会生成许多位于 T 之外的伪文本特征。因为在推理时所有真实文本特征都会位于 T 内,这些位于 T 之外的伪特征只会表现为异常值,这可能会显著降低测试性能。因此,我们的目标是避免生成这些嘈杂的特征。为此,我们提出了一种新方法,以确保生成的伪文本特征能够很好地位于 T 内。

3. 提出的方法:检索然后优化 

为了解决仅使用图像样本进行预训练时的上述不一致问题,我们提出了一种检索-优化方法。它包括两个阶段:一种检索增强方法,用于从合成文本构建初始伪特征(第3.1节),以及一种对比潜在优化过程,以更好地将伪文本特征与其配对的图像对齐(第3.2节)。我们的检索-优化方法的核心思想如图 2 所示,可以如图 1 所示生成更好的伪文本特征。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第3张图片

3.1. 伪文本特征合成:一种检索增强方法 

第一阶段,我们采用检索增强方法,分为四个步骤,以 MS-COCO 为例,详细描述如下。

步骤 1:词汇表构建。我们基于 CLIP 的词汇构建我们的词汇表,大小为 49,408。首先过滤掉非文本项,如表情符号和标点符号,然后构建不同类别的几个较小的词汇表,包括:(i)名词,包括不同地方、职业、生物、物体和抽象概念(例如,生命)。这些名词可以作为标题中的主语或宾语;(ii)动词,表示关系,如做、来、清洁;(iii)数词和量词,如一个、两个、一些、许多;(iv)形容词,如红色、绿色、大的;请注意,如果预训练数据集是有意收集的,可以根据先验知识进一步过滤或为自定义数据集构建额外的词汇表。例如,对于只包含人脸的自定义数据集,可以过滤掉许多名词,只保留那些面部特征。还可以构建一个包含短语的额外词汇表,如戴眼镜、戴耳环等。

步骤 2:图像到词汇的检索。对于构建的词汇表中的每个词,我们使用预训练的 CLIP 文本编码器提取其文本特征。我们将单词特征表示为 {w_ij},其中 w_ij 表示它是第 i 个词汇表中第 j 个词的特征。给定一张图像 x,我们使用 CLIP 图像编码器提取其视觉特征,并计算其与每个 w_ij 的余弦相似度。对于每个词汇表,检索与查询图像最相似的前 K 个词。

步骤 3:提示生成。受 [25] 中的语言提示成功的启发,我们在领域中构建了一组模板。我们的语言提示(即伪标题/句子)是通过将检索到的词与模板进行组合构建的。具体而言,MSCOCO 的提示模板为 “{Numeral/Quantifierg} {Adjective} {Noun} {Verb} {Adjective} {Noun}”。相应的词适应到模板中生成伪标题,生成 K^6 个伪标题。

步骤 4:图像到提示的检索。然后,将生成的标题馈送到 CLIP 文本编码器中,以获取相应的文本特征,用于图像到提示的检索。只有那些与给定图像特征具有高余弦相似性的文本特征将用作图像的相应文本特征,这些文本特征被保证位于 T 内,因为它们是文本编码器的输出。

注意:当 K 较大或模板数较多时,伪标题的数量可能非常大。由于所有伪标题都必须输入 CLIP 文本编码器以获取它们的文本特征,因此更多的前馈会导致更多的处理时间。为了加快速度,可以按迭代方式执行第 3 步和第 4 步。例如,首先使用更简单的模板 "{Noun} {Verb} {Noun}",它会生成 K^3 个关系。然后,通过使用给定图像进行查询,从中选择 K 个关系。所选的单词表示为

然后将它们插入到 "{Numeral/Quantifier} {Adjective} Noun_i Verb_i {Adjective} Noun_i"。然后再次执行相同的步骤,这将生成 K_4 个伪标题。总共生成了 (K+1)K^3 个伪标题,远小于 K^6(对于任意 K≥2)。 

检索增强过程可以线下执行一次。与构建 MS-COCO 数据集所花费的 70,000 小时相比,所提出的方法仅需要在单个 Nvidia Tesla V100 GPU 上花费 5 小时。在实践中,我们注意到仅基于模板的文本特征进行训练可能会导致过拟合。因此,我们还应用高斯扰动作为数据增强。如实验所示,这可以防止过拟合,从而提高我们预训练模型的性能。 

3.2. 伪文本特征精练:对比潜在优化 

我们的第二阶段考虑了第一阶段生成的伪文本特征作为初始化,旨在在 CLIP 多模态特征空间中进行优化,以便它们能更好地与它们的配对图像对齐。按照 [44] 的方法,我们使用相同的基于 StyleGAN2 的网络架构 [16]。生成器同时将文本特征和随机噪声作为潜在输入。让 {h_ij} 是图像 x_i 的对应伪文本特征。在每个训练迭代中,我们采样一小批真实图像,用

表示,其中 n 是小批量大小。对于每个图像 x_i,我们从 {h_ij} 中随机采样一个特征,表示为 (h^0)_i。然后,

将使用等式 (2) 进行优化,本质上是使用

评估的对比损失的优化。 

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第4张图片

在这里,T ≥ 0 表示潜在优化更新的次数,η > 0 是步长,"Sim" 表示余弦相似性。直观地说,等式 (2) 使文本特征 (h^t)_i 与相应的真实图像特征 f_img(x_i) 更相似,同时与其他图像特征 {f_img(x_j)}_j≠i 施加差异性。 

理论上的解释。我们解释了为更好地实现图像文本对齐提出的对比潜在优化(contrastive latent optimization,CLO)的基本理论原理。[44] 表明,通过对比损失可以显著改善模型性能。具体来说,我们给出了一批图像-文本特征对

其中 x'_i 和 h_i 分别表示生成的图像和输入特征。生成器 G_θ 的损失定义为标准对抗性损失和额外的对比损失的组合: 

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第5张图片

其中 τ > 0 是一个超参数,

表示随机噪声。直观地说,等式(3)强制生成的图像 x'_i 在 CLIP 的多模态特征空间中与相应的输入文本特征 h_i 具有高余弦相似性,同时与其他特征 {h_j}_j≠i 具有低余弦相似性。本质上,对生成器而言,对比损失提供了图像与文本的对应关系信息,从而提高了文本到图像生成的效果。然而,我们发现在某些情况下,梯度范数 ||▽_θ L||2 可能会变得太小,无法为生成器提供足够的信息。具体地,我们可以证明如下的定理  1: 

定理 1。假设

是一个生成的图像的小批量,

是输入生成器 G_θ 的相应文本特征。对于等式(3)中的对比损失 L,我们有

其中 a ≥ 0 是一个与 CLIP 图像编码器和我们的生成器相关的常数,σ ≥ 0 表示对比 loss {c_ji} 的标准差。

定理 1 表明梯度范数受到一个随 σ 增加而增加的值的限制。我们可以很容易地发现,当对于所有 i, j 满足 Sim(f_img(x'_j), h_i) = b,其中 b 是一个常数时,最小的 σ = 0 被获得。直观地说,小的 σ 意味着输入文本特征对于生成的图像来说是无法区分的。因此,对比损失不能提供有用的信息,因为梯度范数太小。这种情况可能发生在许多情况下,包括:(i) 在全监督设置下,文本标题不够精确和信息丰富;(ii) 在无监督设置下,由于没有监控和纠正,生成的文本特征可能不合适;(iii) 生成的图像是模糊和不准确的,这在训练的早期阶段很常见。通过对比潜在优化技术,生成的伪文本特征会得到更新,使它们更具区分性,这通常会导致更大的方差。请注意,我们不会使用 σ^2 的梯度来更新样本,因为我们希望确保图像文本对应关系得到正确保持;而仅仅基于 σ^2 来更新可能会损害这种对应关系。 

3.3. LAFITE2 模型实例化 

本文提出的伪文本特征合成技术是通用的,可以插入现有的文本到图像(T2I)方法以提高其性能。我们使用两个流行的模型系列来进行演示。 

LAFITE2_GAN。StyleGAN 及其后续工作是一系列用于无监督或标签条件图像生成的最强大的 GAN 模型,已经在 LAFITE [44] 中为 T2I 任务进行了调整。为了公平比较,我们采用了与 LAFITE [44] 相同的网络架构,并用本文提出的方法生成的伪文本特征替换了之前的伪文本特征。对于给定的数据集,我们首先使用本文提出的方法为每个图像构造伪标题。然后,使用 CLIP 文本编码器获取构建的标题的文本特征。文本特征将通过等式(2)进行更新,并注入 StyleGAN2 的 Style Space [37]。由于 Style Space 已经很好地解耦 [37],将文本特征注入到 Style Space 将有效地迫使生成的图像与文本对齐。 

LAFITE2_LDM。最近的发展中,扩散方法被认为是 T2I 任务最有效的模型家族,其中 LDM [29] 及其后继模型稳定扩散是研究界可用的最强大的模型。因此,我们将本文提出的检索增强技术应用于 LDM,其训练目标解决了图像 x 的潜在表示 z 上的去噪问题:

其中,t 是从 {1, ..., T} 均匀采样的时间步,z_t 是输入 z 的第 t 步的噪声变体,y 是标题条件,f_denoise(*, t, y)是通过 UNet [30] 实现的以 (t, y) 为条件的去噪自编码器。在原始的 LDM 中,BERT [4] 用于获取每个标题的文本嵌入序列 f_bert(y),它被馈送到等式 (4) 中以替代 y。时间 t 首先映射到时间嵌入 Φ(t),然后被注入到 UNet 中。与原始的 LDM 不同,我们的 LAFITE2_LDM 模型在去噪过程中引入了额外的输入:CLIP 文本特征 f_text(y)。CLIP 文本特征首先通过线性层 P 进行投影以对齐维度,然后通过 Φ'(t) = Pf_text(y) + Φ(t) 与时间嵌入相加。Φ'(t) 用于替代原始时间嵌入 Φ(t)。在无监督的预训练阶段,我们只使用了在第 3.1 节中通过提出的检索增强方法生成的合成标题。在使用真实图像文本对进行微调和评估阶段,使用真实标题。

4. 实验 

在本节中,我们研究了提出的方法以回答两个研究问题。Q1:在单个数据集中进行预训练和微调时,我们的方法如何有助于在特定领域进行全监督和半监督学习?(第4.1节) Q2:在通用语料库上进行预训练,然后适应下游数据集时,LAFITE2 是否有助于零样本和少样本任务级别的迁移?(第4.2节) 

设置和评估指标。所有实验均在 4 个 Nvidia Tesla V100 GPU上使用 Pytorch [23] 实施。为了进行公平比较,我们遵循 LAFITE [44] 和 LDM [29] 中的相同网络架构。下游任务使用标准数据集,包括 MS-COCO [19]、CUB [35]、MM-CelebA-HQ [38] 和 LN-COCO [24]。数据统计信息在附录中提供。为了定量衡量图像生成质量,我们报告了 Fr´echet Inception Distance (FID) [9] 和 Inception Score (IS) [32],它们是使用从 MS-COCO、CUB 和 LN-COCO 数据集的验证集中随机抽样的文本输入生成的 30K 张图像进行计算的,MM-CelebA-HQ 数据集生成了 6K 张图像,参照 [38, 44]。我们还报告了在 MS-COCO 数据集上的语义对象准确性(Semantic Object Accuracy,SOA),这是根据先前的工 作[24,41,44] 进行的,评估生成的图像是否包含所需的对象。附录中提供了一些生成的示例。所有代码和预训练模型将被公开提供。

4.1. 无监督预训练 

在这个实验中,我们的模型首先使用提出的方法生成的伪图像文本对进行预训练,然后使用来自相同数据集的真实图像文本对进行微调。

我们首先研究全监督的设置,其中提供所有真实图像文本对,并在不同数据集上比较提出的方法与当前的最先进技术。 (i) 对于 LAFITE2_GAN,模型首先在来自与伪文本特征配对的下游数据集的训练图像上进行预训练(称为域内预训练),然后使用真实文本特征进行微调。 (ii) 对于LAFITE2_LDM,模型首先在一组未标记的图像上进行预训练,这些图像与下游数据集没有重叠(称为近域预训练),然后使用来自下游数据集的真实图像文本对进行微调。我们的  LAFITE2_LDM 是从 [29] 提供的公开检查点(具有 14 亿个参数)初始化的,我们只更新包含 8.7 亿参数的 UNet 部分,并冻结处理文本嵌入的 transformer 部分,然后将其馈送到 UNet 之前。我们将我们的方法与不同的全面监督方法进行比较,包括 AttnGAN [39]、Obj-GAN [17]、DM-GAN [45]、OPGAN [10]、DF-GAN [34]、XMC-GAN [41]、LAFITE [44] 和 Make-A-Scene [7]。注意, [29] 只在 MS-COCO 数据集上提供了零样本文本到图像生成的结果,为了报告 LDM 的全面监督性能,我们对由作者提供的 MS-COCO 数据集上的检查点进行了微调。主要结果如表 1 所示,显示我们的方法在所有指标上均优于其他方法。对于 LAFITE2_LDM,报告了微调步骤 10K 时的检查点。我们发现它在 FID 结果方面略好于更长时间的训练,例如 100K 步。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第6张图片

然后考虑更灵活的设置:半监督文本到图像生成,其中提供了所有下游训练图像,但只有其中的一些有相应的标题。这更为实际,因为可以根据可用的资源和预算选择要生成标题的图像数量。具体来说,我们提供了 10、20、50、100 个图像文本对,用于微调无监督预训练模型。在 LAFITE2_GAN 的微调期间,使用了 Freeze-D [20]。在定量评估中,我们选择了两种不同的方法作为基线方法: (i) LAFITE:使用 LAFITE 生成的伪图像文本对进行预训练,然后使用提供的图像文本对进行微调; (ii) SEMI:直接从头开始训练模型,使用 LAFITE 生成的伪对和真实对的混合。当没有提供真实对时,这两种基线方法变得相同。结果如表 2 所示,我们的方法在所有少样本情况下明显优于基线。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第7张图片

4.2. 零样本和少样本任务迁移 

对于任务级的迁移,预训练数据集和下游数据集之间没有图像重叠。根据预训练数据,我们准备了提出方法的两个变体,分别表示为 LAFITE2 和 LAFITE2(ND),其中 ND 代表近领域,意味着预训练数据集被选择为与下游数据集相关。例如,当下游数据集是包含各种鸟类图像文本对的 CUB 数据集时,我们可以使用 Birdsnap 数据集 [2] 作为预训练数据集,它是一个仅包含 49,829 只鸟的图像的数据集。更多细节可以在附录中找到。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第8张图片

零样本。零样本文本到图像生成的结果如表 3 所示。我们的方法实现了与 DALL-E2 可比的结果,但模型规模小得多。与通常导致 SoTA 性能的自回归模型和扩散模型相比,所提出的 LAFITE2_GAN 具有较低的推断时间的有利特性。LAFITE2_LDM 以较大的模型大小和较高的推断时间获得了更好的性能。我们将 LAFITE2_LDM 与原始 LDM 在图 3 中进行了比较,从中可以看出改进是明显的:使用所提出的方法,我们可以生成质量更好的图像并避免生成非预期的图像样式。更具体地说,由于我们希望生成与来自 MS-COCO 的样本相似的图像,我们希望生成的图像是逼真的照片,而不是卡通图像或油画。通过利用近领域的仅图像数据集,我们可以强制 LDM 生成所需的文本对齐图像。与性能提升相比,构建这样的数据集的工作量可以忽略不计,因为它仅需要没有标题的图像样本。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第9张图片

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第10张图片

少样本。少样本文本到图像生成是一个更实际但不太被探索的领域。如表 4 所示,从零开始进行少样本设置的训练具有挑战性,无法获得令人满意的结果。相反,微调预训练模型可以获得更好的结果。结果如表 4 所示,为模型适应提供了 10、20、50、100 个训练图像文本对。我们还在表 5 中比较了 LDM 上的适应过程。从结果中可以得出结论:(i) 我们的预训练更加通用,通过微调可以实现更好的少样本文本到图像生成;(ii) 我们的预训练模型更容易微调,比 uGAN、LAFITE 和 LDM 可以得到更好的结果。  

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第11张图片

4.3. 消融研究

潜在优化的有效性。我们通过在 MS-COCO [19] 上进行一个实验来验证所提出的对比性潜在优化(contrastive latent optimization,CLO)组件。为简单起见,我们没有使用任何图像特征生成伪文本特征。相反,文本特征通过 h_ij = ε_ij / ||ε_ij||^2, ε_ij ~ N(0, I) 在超球上均匀初始化,然后使用等式(2)进行更新。我们训练了两个 LAFITE2_GAN 模型,批量大小为 64,进行了 800K 次迭代。全监督模型是从头开始使用真实的图像文本对进行训练的。另一个模型首先使用 CLO 生成的伪图像文本对进行预训练,然后再使用真实对进行微调。如图 4 所示,使用 CLO 进行预训练比从头开始训练得到更好的结果。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第12张图片

组件分析。我们进一步使用高斯扰动、CLO 和检索增强方法生成的伪文本特征对两个模型进行预训练。然后,我们在 MSCOCO 的 0%、0.1%、1%、10%、100% 的真实图像文本对上对所有三个预训练模型进行微调。结果见表 6 和表 7。在少样本设置中,所提出的检索方法在生成质量和图像文本对应方面取得了最佳结果。然而,在提供更多标题时,它的表现不如高斯扰动和 CLO。这是因为模型倾向于过度拟合模板的特定结构。CLO 相对于高斯扰动获得了更好的图像文本对应关系,从而验证了我们之前的动机和假设。最后,将这三个组件组合在一起在整体上取得了最佳结果,并且可以减轻过度拟合问题。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第13张图片

5. 结论

在这项工作中,我们提出了 LAFITE2,一种新颖的文本到图像生成任务的无监督预训练方法,只需要图像样本,同时可以获得良好的图像文本对应关系和生成质量。LAFITE2 具有良好的可迁移性,可以在许多不同的设置中受益。所提出的方法在不同数据集上的全监督设置中取得了有希望的结果。我们还在少样本和半监督上评估了所提出的方法,并与相关方法相比取得了更好的结果。我们相信这种无监督预训练方法将有助于该领域,因为它在不同设置下表现出有希望的性能,且在构建图像文本数据集方面需要的人力工作量较低。

S. 总结

S.1 主要贡献

本文提出了用于无语言文本到图像生成的 LAFITE2, 使用仅包含图像的数据集预训练文本到图像生成模型,它包括两种合成伪文本特征的新技术:检索增强伪文本特征构建和潜在特征优化。

该方法的要求较低,具有很高的灵活性和可用性:它可以有益于各种设置,包括少样本、半监督和全监督学习;它可以应用于不同的模型,包括生成对抗网络(GAN)和扩散模型。

(2022,GAN,LDM,检索增强,对比潜在优化)LAFITE2:少样本文本到图像生成_第14张图片

S.2 方法和架构

检索增强的方法,分为四个步骤,如图 2 所示。

  • 词汇表构建:包括名词、动词、数词和量词、以及形容词。
  • 图像到词汇的检索:使用 CLIP 图像编码器提取其视觉特征。在词汇表中检索与最符合图像的 K 个词。
  • 提示生成:基于模板使用检索到的词汇生成多个提示。
  • 图像到提示的检索:将生成的标题送到 CLIP 文本编码器中,以获取相应的文本特征。保留与视觉特征最相似的文本特征。

对比潜在优化。为了使生成的伪文本特征能更好地与它们的配对图像对齐,通过迭代优化的方法,基于文本特征和图像特征的对比损失来获得更好的伪文本特征。

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,机器学习)