DALL-E 3: 管窥蠡测OpenAI open的一个文生图小口

DALL-E 3

  • DALL-E 3
    • 总览
    • 摘要
    • 1 引言
      • 2.1 构建一个图像描述器
        • 2.1.1 微调图像描述器

DALL-E 3

总览

题目: Improving Image Generation with Better Captions
机构:OpenAI,微软
论文: https://cdn.openai.com/papers/dall-e-3.pdf
任务: 文本生成图像
特点:
前置相关工作:DALL-E,DALL-E 2

摘要

我们表明,通过对高度描述性生成的图像caption进行训练,可以显着提高文本到图像模型的提示跟随能力。现有的文本到图像模型很难遵循详细的图像描述,并且经常忽略单词或混淆提示的含义。我们假设这个问题源于训练数据集中的噪声和不准确的图像标题。我们通过训练定制图像caption器并使用它来重新caption训练集来解决这个问题。然后,我们训练了几个文本到图像模型,发现对这些合成字幕的训练可靠地提高了提示词跟随能力。最后,我们利用这些发现构建了 DALL-E 3:一种新的文本到图像生成系统,并在旨在衡量提示词跟随性、连贯性和美观性的评估中对其性能进行了基准测试,发现它与竞争对手相比具有优势。我们发布了这些评估的示例和代码,以便未来的研究可以继续优化文本到图像系统的这一重要方面。

1 引言

生成建模的最新进展使得文本到图像生成模型能够实现显着的性能改进。特别是,使用基于采样的方法(例如自回归生成模型[PixelCNN,PixelSNAIL, Generative Pretraining from Pixels,DALL-E,Parti或使用扩散过程[Deep Unsupervised Learning using Nonequilibrium Thermodynamics,DDPM,Improved Denoising Diffusion Probabilistic Models,GLIDE,unCLIP,Stable Diffusion)来处理文生图问题,使我们能够将图像生成问题分解为小的、离散的步骤,这对于神经网络来说更容易学习。

与此同时,研究人员找到了用自注意力层堆栈构建图像生成器的方法[Image Transformer,Generating long sequences with sparse transformers,ViT。将图像生成与卷积的隐式空间偏差解耦,使得文本到图像模型能够通过经过充分研究的transformer缩放特性来可靠地改进。

结合足够大的数据集,这些方法可以训练大型文本到图像模型,这些模型能够生成快速接近人类可以制作的照片和艺术品质量的图像。

该领域的一个突出挑战是图像生成系统的可控性,该系统经常忽略给定caption中的单词、词序或含义。我们用“prompt following”一词来指代这些挑战。
这个问题已在几部著作中指出:DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image Models 指出 DALL-E 2 不强制每个单词具有单一含义的约束。Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding建议通过预先训练的语言模型进行调节来改进它,并引入了一种名为 Drawbench 的评估,它可以解决常见的提示问题。Scaling Autoregressive Models for Content-Rich Text-to-Image Generation同时介绍了他们自己的基准测试 Parti Prompts,并表明提升自回归图像生成器的规模是改善提示跟随的另一种方法

在这项工作中,我们提出了一种解决提示词遵循的新方法:标题改进。我们假设现有文本到图像模型的一个基本问题是它们所训练的数据集的文本和图像配对质量较差,这一问题在其他作品(例如 Jia 等人在Align)中已经指出。我们建议通过为数据集中的图像生成改进的标题来解决这个问题。为此,我们首先学习一个强大的图像字幕生成器,它可以生成详细、准确的图像描述。然后,我们将此字幕生成器应用到我们的数据集以生成更详细的字幕。我们最终在改进的数据集上训练文本到图像模型。
合成数据训练并不是一个新概念。例如,Parti提到他们应用这种技术来训练缩放自回归图像生成器。我们的贡献是构建一个新颖的描述性图像字幕系统,并测量在训练生成模型时使用合成字幕的影响。我们还为一套测量提示词遵循的评估建立了可复现的基线性能配置文件。
本文重点评估 DALL-E 3 通过高度描述性生成的字幕进行训练后对提示跟随效果的改进。它不涵盖 DALL-E 3 模型的训练或实现细节。我们在第 2 节中对训练图像字幕生成器的策略进行了高级概述,在第 3 节中对在原始字幕和生成字幕上训练的文本到图像模型进行了评估,在第 4 节中对 DALL-E 3 进行了评估,并在第 5 节中讨论了局限性和风险。

## 2 数据集重新字幕生成

我们的文本到图像模型在由大量图文对 ( i , t ) (i,t) (i,t)组成的数据集上进行训练,其中 i i i为图像, t t t是描述该图像的文本。在大规模数据集中, t t t通常源自人类作者,他们专注于对图像主题的简单描述,而忽略图像中描绘的背景细节或常识关系。 t t t中通常省略的重要细节可能包括:

  1. 类似厨房中的水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置以及这些对象的数量。
  3. 常识细节,例如场景中物体的颜色和大小。
  4. 图像中显示的文本。

更糟糕的是,在互联网上找到的字幕通常根本不正确;描述图像的不相关( tangentially related)细节。例如,在通常用于生成图像标题的alt-text中经常会发现广告或网红梗。我们认为所有这些缺点都可以使用合成生成的字幕来解决。在后续部分中,我们将讨论我们为测试该理论而开发的程序。

2.1 构建一个图像描述器

图像字幕生成器与预测文本的传统语言模型非常相似。因此,我们首先提供语言模型的简要描述。首先,分词器用于将文本字符串分解为离散的标记。一旦以这种方式分解,我们的语料库的文本部分就可以表示为一个序列, t = [ t 1 , t 2 , . . . , t n ] t = [t_1, t_2,...,t_n] t=[t1,t2,...tn]。然后,我们可以通过最大化以下似然函数来构建文本的语言模型:
L ( t ) = ∑ j l o g P ( t j ∣ t j − k , . . . , t j − 1 ; θ ) L(t) = \sum_{j}logP(t_j|t_{j-k},...,t_{j-1};\theta) L(t)=jlogP(tjtjk,...,tj1;θ)
其中 θ \theta θ是要优化的字幕器参数。要将此语言模型转换为字幕生成器,您只需将图像视作条件即可。这里存在的挑战是图像由数千个像素值组成。对于我们当前的神经网络来说,基于所有的像素信息效率非常低,因此我们需要一个压缩的表示空间。方便的是,CLIP[17] 就提供了这一点。
因此,给定一个预先训练的 CLIP 图像编码函数 F ( i ) F(i) F(i),我们通过如下形式对我们的语言建模目标函数进行增强:
L ( t , i ) = ∑ j l o g P ( t j ∣ t j − k , . . . , t j − 1 ; z j ; F ( i ) ; θ ) L(t,i) = \sum_{j}logP(t_j|t_{j-k},...,t_{j-1};z_j;F(i);\theta) L(t,i)=jlogP(tjtjk,...,tj1;zj;F(i);θ)
我们遵循Coca 并使用 CLIP 和语言建模目标在我们的 ( t , i ) (t, i) (t,i)文本和图像对数据集上联合预训练我们的字幕生成器。由此产生的模型确实是一个很好的字幕生成器,但也表现出了我们在第 2 节中描述的相同问题,例如不愿意描述细节。

2.1.1 微调图像描述器

为了改进图像生成数据集中的字幕,我们希望使字幕生成器产生图像描述,这对于学习文本到图像模型很有用。在我们的第一次尝试中,我们构建了一个小型标题数据集,仅描述图像的主体目标。然后我们继续在这个数据集上训练我们的字幕生成器。此过程引起的 θ \theta θ更新导致模型偏向于描述图像的主要主题。我们将这种微调生成的字幕称为“短合成字幕”。

我们第二次重复这个过程,创建一个长的、高度描述性的标题数据集,描述微调数据集中每个图像的内容。这些标题不仅描述了图像的主要主题,还描述了它的周围环境、背景、图像中的文本、样式、颜色等。我们再次在此数据集上微调我们的基础图像描述器。我们将此字幕生成器生成的字幕称为“描述性合成字幕”。

图 3 显示了真实情况、简短合成和描述性合成字幕的示例。构建完成后,我们将图像字幕器微调到文本到图像数据集中的每个图像,从而生成一组用于后续实验的合成字幕。

你可能感兴趣的:(计算机视觉,人工智能,论文阅读,深度学习,AIGC)