EDPJ

（2023|ICML，LLM，标记掩蔽，并行解码）Muse：使用掩蔽生成 Transformer 的文本到图像生成

Muse: Text-To-Image Generation via Masked Generative Transformers

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 模型

2.1. 预训练文本编码器

2.2. 使用 VQGAN 进行语义标记化

2.3. 基础模型

2.4. 超分辨模型

2.5. 解码器微调

2.6. 可变掩码率

2.7. 无分类器引导

2.8. 推理时的迭代并行解码

3. 结果

3.1. 定性性能

3.2. 量化性能

3.2.1. 人工评估

3.2.2. 推断速度

3.3. 图像编辑

3.3.1. 文本引导的修复/扩展

3.3.2. 零样本无掩蔽编辑

4. 相关工作

4.1. 图像生成模型

4.2. 图像标记化

4.3. 大型语言模型

4.4. 文本-图像模型

4.5. 利用生成模型进行图像编辑

5. 讨论和社会影响

附录

VQGAN Architecture

S. 总结

S.1 主要贡献

S.2 架构和方法

0. 摘要

我们提出了 Muse，这是一个文本到图像的 Transformer 模型，它在图像生成性能上实现了最先进的水平，同时比扩散或自回归模型高效得多。Muse 在离散标记空间中进行了一个带掩码的建模任务：给定从预训练的大型语言模型（LLM）中提取的文本嵌入，Muse 经过训练来预测随机掩码的图像标记。与像 Imagen 和 DALL-E2 这样的像素空间扩散模型相比，Muse 由于使用了离散标记并且需要较少的采样迭代，因此效率显著更高。与像 Parti 这样的自回归模型相比，Muse 由于使用并行解码更加高效。预训练 LLM 的使用使其具备了精细的语言理解能力，从而实现了高保真度的图像生成和对视觉概念（如对象、它们的空间关系、姿势、基数等）的理解。我们的 900M 参数模型在 CC3M 上取得了新的 SOTA，FID 得分为 6.06。Muse 的 3B 参数模型在零样本 COCO 评估上取得了 FID 为 7.88 的成绩，CLIP 分数为 0.32。Muse 还直接支持许多图像编辑应用，无需微调或反演模型：修复、扩展和免掩模式编辑。更多结果可在http://muse-model.github.io上找到。

1. 简介

以文本提示为条件的图像生成模型在过去几年中在质量和灵活性方面取得了巨大的飞跃 (Ramesh et al., 2022; Nichol et al., 2021; Saharia et al., 2022; Yu et al., 2022; Rombach et al., 2022; Midjourney, 2022)。这得益于深度学习架构的创新 (Van Den Oord et al., 2017; Vaswani et al., 2017)，以及新颖的训练范式，如用于语言 (Devlin et al., 2018; Raffel et al., 2020) 和视觉任务 (He et al., 2022; Chang et al., 2022) 的掩蔽建模；新的生成模型家族，如扩散模型 (Ho et al., 2020; Rombach et al., 2022; Saharia et al., 2022) 和基于掩蔽的生成 (Chang et al., 2022)；以及大规模图像-文本对数据集的可用性 (Schuhmann et al., 2021)。

在这项工作中，我们提出了一种新的文本到图像合成模型，采用了掩蔽图像建模方法 (Chang et al., 2022)。我们的图像解码器架构以来自预训练的并且冻结的 T5-XXL (Raffel et al., 2020) 大型语言模型 (LLM) 编码器的嵌入为条件。与 Imagen (Saharia et al., 2022) 的结果一致，我们发现在预训练的 LLM 的条件下对于逼真和高质量的图像生成是至关重要的。我们的模型 (除了 VQGAN 量化器) 基于Transformer (Vaswani et al., 2017) 架构构建。

我们已经训练了一系列的 Muse 模型，其规模从 632M 参数到 3B 参数不等（对于图像解码器；T5-XXL 模型还有额外的 4.6B 参数）。每个模型由几个子模型组成（图 3）：首先，我们有一对VQGAN “ 标记器” 模型 (Esser et al., 2021b)，它们可以将输入图像编码成一系列离散标记，也可以将标记序列解码回图像。我们使用了两个 VQGAN，一个用于 256x256 的分辨率（“低分辨率”），另一个用于 512x512 的分辨率（“高分辨率”）。其次，我们有一个基本的掩蔽图像模型，其中包含了我们大部分的参数。这个模型接受一系列部分掩蔽的低分辨率标记，并预测每个掩蔽标记的边际分布，条件是未掩蔽的标记和一个T5-XXL文本嵌入。第三，我们有一个 “超分辨率” transformer 模型，它将（未掩蔽的）低分辨率标记转化为高分辨率标记，同样是在 T5-XXL 文本嵌入的条件下。我们在第 2 节中详细解释了我们的流程。

与建立在级联像素空间扩散模型上的 Imagen（Saharia等人，2022）或 Dall-E2（Ramesh等人，2022）相比，Muse 由于使用离散标记而更加高效；它可以被视为一个带有吸收状态（[MASK]）的离散扩散过程（Austin等人，2021）。与最新的自回归模型 Parti（Yu等人，2022）相比，Muse 由于使用并行解码而更加高效。基于在类似硬件（TPU-v4芯片）上的比较，我们估计 Muse在推理时比 Imagen-3B 或 Parti-3B 模型快 10 倍以上，并比 Stable Diffusion v1.4（Rombach等人，2022）快 3 倍（请参见第 3.2.2 节）。所有这些比较都是在相同大小的图像上进行的，分辨率要么是 256 x 256，要么是 512 x 512。尽管 Muse 和 Stable Diffusion（Rombach等人，2022）都在 VQGAN 的潜在空间中工作，但 Muse 更快，我们认为这是因为 Stable Diffusion v1.4 中使用了扩散模型，需要在推理时执行更多迭代。

然而，Muse 的效率改进并不会降低生成的图像质量或对输入文本提示的语义理解。我们根据多个标准评估我们的输出，包括 CLIP 分数（Radford等人，2021）和 FID（Heusel等人，2017）。前者是图像与文本的对应度量，后者是图像质量和多样性的度量。我们的 3B 参数模型在 COCO（Lin等人，2014）零样本验证基准上获得了 0.32 的 CLIP 分数和 7.88 的 FID 分数，与其他大规模文本到图像模型的表现相媲美（见表 2）。我们的 632M（基本）+ 268M（超分辨率）参数模型在 CC3M（Sharma等人，2018）数据集上进行训练和评估时，实现了 6.06 的 FID 分数，明显低于文献中报告的所有其他结果（见表 1）。此外，我们还使用人工评分员在 PartiPrompts（Yu等人，2022）评估套件上评估我们的生成结果，评分员发现 Muse 生成的图像与其文本提示的对齐度要比 Stable Diffusion v1.4（Rombach等人，2022）高 2.7 倍。

Muse 生成的图像反映了输入标题中的不同词性，包括名词、动词和形容词。此外，我们提供了多对象属性理解的证据，如组合性和基数，以及图像风格理解。请参见图 1，其中有许多这些示例，以及我们网站 http://muse-model.github.io 上的更多示例。Muse 的基于掩码的训练使其具备许多零样本图像编辑功能，一部分如图 2 所示，包括零样本、文本引导的 inpainting 和 outpainting，以及无掩码编辑。更多细节请参见第 3 节。

我们的贡献包括：

我们提出了一种用于文本到图像生成的最先进模型，实现了出色的 FID 和 CLIP 分数（这是图像生成质量、多样性以及与文本提示的一致性的定量度量）。
由于使用了量化图像标记和并行解码，我们的模型明显比类似模型更快。
我们的架构实现了开箱即用的零样本编辑功能，包括 inpainting，outpainting 和无掩码编辑。

2. 模型

我们的模型由许多组件构建而成。在这里，我们按照它们的训练顺序为每个组件提供一个概述，同时将许多架构和参数的细节放在附录中。图3提供了模型架构的概述。

2.1. 预训练文本编码器

与 Saharia 等人（2022）的发现类似，我们发现利用预训练的大型语言模型（LLM）有助于高质量的图像生成。从 LLM（例如 T5-XXL）提取的嵌入包含有关对象（名词）、动作（动词）、视觉属性（形容词）、空间关系（介词）以及基数和组成等丰富信息。我们的假设是，Muse 模型学会将 LLM 嵌入中的这些丰富的视觉和语义概念映射到生成的图像上；最近的研究表明（Merullo等人，2022），LLM 学到的概念表示与在视觉任务上训练的模型学到的表示大致是线性可映射的。给定一个文本标题输入，我们将其通过冻结的 T5-XXL 编码器，生成一个 4096 维的语言嵌入向量序列。这些嵌入向量经过线性投影，投影到我们的 Transformer 模型（基和超分辨率）的隐藏大小。

2.2. 使用 VQGAN 进行语义标记化

我们模型的核心组件之一是从 VQGAN (Esser 等人，2021b) 模型获得的语义标记的使用。该模型由一个编码器和一个解码器组成，具有一个量化层，将输入图像映射为从学习的码本中获得的标记序列。我们完全使用卷积层构建我们的编码器和解码器，以支持对不同分辨率的图像进行编码。编码器具有多个降采样块，以减小输入的空间维度，而解码器具有相应数量的上采样块，将潜变量映射回原始图像尺寸。对于尺寸为 H x W 的图像，编码的标记大小为 H/f x W/f，其中 f 是降采样比例。我们训练了两个 VQGAN 模型：一个降采样比率 f = 16，另一个降采样比率 f = 8。我们使用尺寸为 256 x 256 像素的图像在基础模型中使用 f = 16 VQGAN 模型获得标记，从而获得了空间尺寸为 16 x 16 的标记。我们使用尺寸为 512 x 512 像素的图像在超分辨模型中使用 f = 8 VQGAN 模型获得标记，相应的标记具有空间尺寸为 64 x 64。如在先前的工作中所提到的 (Esser 等人，2021b)，编码后的离散标记捕捉了图像的高层语义，同时忽略了低层噪音。此外，这些标记的离散性质允许我们在输出阶段使用交叉熵损失来预测下一阶段中的掩蔽标记。

2.3. 基础模型

我们的基础模型是一个掩码 transformer（Vaswani 等人，2017；Devlin 等人，2018），其中输入是投影的 T5 嵌入和图像标记。我们保留所有文本嵌入不加掩码，并随机掩蔽其中的一部分图像标记（参见第 2.6 节），并将它们替换为特殊的 [MASK] 标记（Chang 等人，2022）。然后，我们将图像标记线性映射到所需的 transformer 输入/隐藏大小的图像输入嵌入，以及学习的 2D 位置嵌入。按照以前的 transformer 架构（Vaswani 等人，2017），我们使用多个 transformer 层，包括自注意块、交叉注意块和 MLP 块来提取特征。在输出层，我们使用 MLP 将每个被掩码的图像嵌入转换为一组与 VQGAN 码本大小相对应的标记，并使用与真实标记的交叉熵损失作为目标。在训练时，基础模型被训练以在每个步骤预测所有被掩码的标记。然而，在推断中，掩码预测是以迭代方式执行的，这显著提高了质量。有关详细信息，请参见第 2.8 节。

2.4. 超分辨模型

我们发现直接预测 512 x 512 分辨率会导致模型关注低级细节而忽略大尺度语义。因此，我们发现使用级联模型是有益的：首先是一个基础模型，生成一个 16 x 16 的潜变量图（对应于 256 x 256 的图像），然后是一个超分辨模型，将基础潜变量图上采样到 64 x 64 的潜变量图（对应于 512 x 512 的图像）。超分辨模型是在基础模型训练之后进行训练的。

如第 2.2 节所述，我们训练了两个 VQGAN 模型，一个在 16 x 16 的潜变量分辨率和 256 x 256 的空间分辨率，第二个在 64 x 64 的潜变量分辨率和 512 x 512 的空间分辨率。由于我们的基础模型输出与 16 x 16 潜变量映射对应的标记，我们的超分辨过程学会了将低分辨率潜变量图 “翻译” 为高分辨率潜变量图，然后通过高分辨率 VQGAN 进行解码，以生成最终的高分辨率图像。这个潜变量图翻译模型也是在文本条件和交叉关注的情况下进行训练，类似于基础模型，如图 4 所示。

2.5. 解码器微调

为了进一步提高我们模型生成精细细节的能力，我们增加了 VQGAN 解码器的容量，增加了更多的残差层和通道，同时保持编码器的容量不变。然后，我们微调新的解码器层，同时保持 VQGAN编码器的权重、码本和 transformer （即基础模型和超分辨模型）冻结。这使我们能够改善我们的视觉质量，而无需重新训练任何其他模型组件（因为视觉标记的 “语言” 保持不变）。这在附录的图 13 中有所显示，我们可以看到，微调后的解码器可以重建更锐利的细节。我们还在附录中提供了微调后的解码器架构的详细信息。

2.6. 可变掩码率

与（Chang等人，2022）一样，我们使用基于余弦调度的可变掩码率来训练我们的模型：对于每个训练示例，我们从一个带有密度函数

的截断反余弦分布中采样一个掩码率 r ∈ [0, 1]。这具有预期的掩码率为 0.64，具有对更高掩码率的强烈偏向。对更高掩码率的偏好使预测问题变得更加困难。与自回归方法相反，自回归方法学习了一些固定顺序的标记的条件分布 P(x_i | x_

2.7. 无分类器引导

我们采用无分类器引导（classifier-free guidance，CFG）（Ho＆Salimans，2022）来提高我们的生成质量和文本-图像对齐。在训练时，我们随机选择 10% 的样本，去除文本条件（因此注意力减少到图像标记的自注意力）。在推断时，我们为每个被掩蔽的标记计算一个条件 logit ℓ_c 和一个无条件 logit ℓ_u。然后，我们通过从无条件 logit 中移动一定数量 t，即引导尺度，形成最终的 logit ℓ_g：

直观地，CFG 使用多样性置换忠实度。不同于以往的方法，我们通过采样过程线性增加了指导尺度 t，以减少对多样性的打击。这允许早期的标记以更自由地进行采样，具有较低或无指导，但增加了后期标记的条件提示的影响。

我们还利用这一机制来实现负向提示（NegPrompt，2022），通过使用以 “负向提示” 为条件的 logit 来替换无条件的 logit ℓ_u。这鼓励生成的图像具有与正向提示 c 关联的特征，并去除与负向提示 ℓ_u 关联的特征。

2.8. 推理时的迭代并行解码

我们模型推理时间效率的关键组件是使用并行解码，在单个前向传递中预测多个输出标记。支持并行解码效果的关键假设是马尔可夫属性，即许多标记在给定其他标记的情况下是条件独立的。解码是基于余弦进度表（Chang 等人，2022）执行的，该表选择要在该步骤预测的具有最高置信度的掩蔽标记的一部分。然后，这些标记在剩下的步骤中被设置为未掩蔽，并且掩蔽标记集合适当减小。使用这一过程，我们能够在我们的基础模型中仅使用 24 个解码步骤执行 256 个标记的推理，以及在我们的超分辨率模型中使用 8 个解码步骤执行 4096 个标记的推理，与自回归模型（例如 (Yu 等人，2022)）需要的 256 或 4096 步，以及扩散模型（例如 (Rombach 等人，2022; Saharia 等人，2022)）的数百步相比。我们注意到，最近的方法，包括渐进蒸馏（Salimans＆Ho，2022）和更好的 ODE 求解器（Lu 等人，2022），已经大大减少了扩散模型的采样步骤，但它们尚未在大规模文本到图像生成中得到广泛验证。我们将在将来的工作中与这些更快的方法进行比较，同时注意到相似的蒸馏方法对于我们的模型也是可能的。

3. 结果

我们训练了多个基本的 Transformer 模型，其参数大小不同，从 600M 到 3B 参数不等。这些模型中的每一个都接收来自 T5-XXL 模型的输出嵌入，该模型是经过预训练并冻结的，由 4.6B 参数组成。我们最大的基本模型有 3B 参数，包括 48 个 Transformer 层，其中包括文本到图像的交叉注意力和图像标记之间的自注意力。所有基本模型共享相同的图像标记器。我们使用一个包含 19 个 ResNet 块和大小为 8192 的量化码本的 CNN 模型进行标记化。更大的码本大小并没有带来性能改进。超分辨率模型由 32 个多轴 Transformer 层（Zhao 等人，2021）组成，其中包括从连接的文本和图像嵌入到高分辨率图像的交叉注意力和高分辨率图像标记之间的自注意力。这个模型将一系列标记从一个潜在空间转换到另一个：第一个潜在空间是基本模型标记器的潜在空间，包含 16x16 的标记，然后转换到更高分辨率标记器的 64x64 的标记的潜在空间。在标记转换后，高分辨率标记器的解码器用于将其转换为高分辨率图像空间。附录中提供了更多配置的详细信息。我们在包含 460M 个文本-图像对的 Imagen 数据集上进行训练（Saharia 等人，2022）。训练步骤数为 1M，批量大小为 512，在 512 核 TPU-v4 芯片上进行（Jouppi 等人，2020）。这需要大约 1 周的训练时间。我们使用 Adafactor 优化器（Shazeer＆Stern，2018）以节省内存消耗，这使我们能够在没有模型并行化的情况下容纳 3B 参数模型。在训练期间，我们还避免执行模型权重的指数移动平均（EMA），再次以节省 TPU 内存。为了获得 EMA 的好处，我们每 5000 步进行一次检查点，然后使用衰减因子为 0.7 在检查点权重上离线执行 EMA。这些平均权重形成了最终的基本模型权重。

3.1. 定性性能

图 6 在定性展示了 Muse 针对具有不同属性的文本提示的能力。图 6 的左上角显示了示例，展示了对基本基数的理解。对于具有非一致基数的对象，Muse 不会多次生成相同对象像素，而是添加上下文变化，以使整体图像更加真实，例如，大象的大小和方向，酒瓶包装颜色，以及网球旋转。图 6 的右上角演示了对多对象构图和相对性的理解。Muse 不会将对象随机放置在不同位置，而是生成保留文本中介词对象关系的图像，例如，on vs under，left vs right 等。图 6 的中间左侧展示了 Muse 生成涵盖多种风格的图像的能力，既特定于著名艺术家（例如，伦勃朗），又通用于整个风格（例如，波普艺术和中国水墨画）。图 6 的中间右侧展示了 Muse 渲染单词和短语的能力。文本生成与生成大多数其他对象的方式根本不同。模型不是学习对象名称与其特征之间的映射（例如，“大象” 映射到 “大”、“灰色” 和 “吃花生”），而是必须学习不同的方式。它必须学习短语、单词和字母之间的层次理解。图 6 的左下方演示了 Muse 渲染图像时使用整个文本提示，而不仅仅关注少数显著的词。最后，图 7 显示了 Muse、Dall-E 2（Ramesh 等人，2022）和 Imagen（Saharia 等人，2022）在一些选择性提示下的比较，显示 Muse 与 Imagen 相当，对于许多提示在定性上更好。

然而，正如图 6 的右下角所示，Muse 在生成与某些类型的提示完全对齐的图像方面存在局限性。对于指示应直接呈现长的、多词短语的提示，Muse 倾向于不正确地呈现这些短语，通常导致（不希望的）重复呈现的词语或仅呈现短语的一部分。此外，提示指示高基数对象的倾向通常会导致生成的图像不能正确反映所需的基数（例如，在提示中指定为 10 时仅呈现 7 个酒瓶）。总的来说，Muse 以正确的对象基数呈现的能力随着基数的增加而减小。Muse 的另一种难以应对的提示类型是具有多个基数的提示（例如，“四只猫和三只狗的队伍”）。对于这些情况，Muse 倾向于在呈现中至少有一个基数不正确。

3.2. 量化性能

在表 1 和表 2 中，我们展示了我们在 CC3M（Sharma等人，2018）和 COCO（Lin等人，2014）数据集上与其他方法的性能，使用 Frechet Inception Distance（FID）（Heusel等人，2017）来衡量质量和样本多样性，以及 CLIP（Radford等人，2021）分数，用于衡量图像/文本对齐度。对于CC3M 的结果，两个 Muse 模型均在 CC3M上训练。COCO 的结果是零样本学习，使用了与Imagen（Saharia等人，2022）相同数据集上训练的模型。

我们的 632M 模型在 CC3M 上取得了 SOTA 结果，显著改善了 FID 分数的技术水平，并且也达到了 CLIP 分数的技术水平。我们的 3B 模型获得了 7.88 的 FID 分数，略优于具有相似参数数量的Parti-3B 模型的 8.1 分。我们的 CLIP 分数为 0.32，高于 Imagen 的 0.29 分（当 FID 显著高于 20 时获得）。对于 FID 为 7.27 的情况，Imagen 获得了约 0.27 的CLIP分数（请参见（Saharia等人，2022）中的图 4）。

我们的采样算法（第 2.8节）具有许多超参数，例如指导尺度、采样温度、是否在线性增加采样期间的指导等。我们对这些参数进行了评估扫描。我们发现一些采样参数的子集在帕累托（Pareto）效率的意义上是高效的，即我们不能改善 FID 而不影响 CLIP。这使我们能够研究多样性和图像/文本对齐之间的权衡关系，如图 8 所示。

3.2.1. 人工评估

与之前的研究类似（Yu等人，2022年；Saharia等人，2022年），我们进行了并排评估，其中人工评分员被呈现一段文本提示和两张图像，每张图像由不同的文本到图像模型使用该提示生成。评分员被要求通过问题来评估提示-图像对齐性，问题是：“哪张图像更符合描述？”每个图像对都是匿名的，随机排序（左侧与右侧）。评分员可以选择任何一张图像，或表示他们不关心。每个（提示，图像对）三元组由五名独立的评分员评估；评分员通过 Google 内部众包计算团队提供，对 Muse 团队完全匿名。对于呈现给评分员的提示集，我们使用了 PartiPrompts（Yu等人，2022年），这是一个包含 1650 个文本提示的收藏，旨在测量模型在各种类别下的能力。对于两个文本到图像模型，我们将 Muse（3B 参数）与 Stable Diffusion v1.4（Rombach等人，2022年）进行了比较，后者在推理速度方面与 Muse 最相似。对于每个提示，生成了 16 个图像实例，选择了具有最高CLIP 分数（Radford等人，2021年）的那个。稳定扩散图像是通过 CompVis Stable Diffusion v1.4笔记本（CompVis，2022年）生成的。我们要求至少有 3 名评分员一致同意的结果才能计入某个模型的支持。通过这个分析，我们发现，Muse 70.6% 被选择为比 Stable Diffusion 更好的对齐，Stable Diffusion 25.4% 被选择为比 Muse 更好的对齐，而 4% 没有评分员达成共识。这些结果与Muse 具有显着更好的描述匹配能力（2.7 倍）一致。图 9 显示了评分员一致性 3、4 和所有 5 种可能投票的结果细分。所有 5 名评分员认为 Muse 的对齐性比 Stable Diffusion 更好的提示是较大的贡献者。除了测量对齐性，其他研究作品（Yu等人，2022年；Saharia等人，2022年）还测量了图像的逼真度，通常通过与评分员问题类似的问题，如“哪个图像更逼真？”。然而，我们注意到在检查此类结果时必须小心。尽管问题的目的不是如此，但模型完全模式崩溃，以便生成与提示无关的相同足够逼真的图像，几乎总是会在此问题上表现得比在图像生成过程中考虑提示的模型更好。我们建议这种类型的问题只适用于具有类似对齐性的模型之间。由于 Muse 的对齐性明显优于Stable Diffusion，我们没有通过人工评分员评估逼真度。我们认为这是一个开放研究领域。

3.2.2. 推断速度

在表 3 中，我们将 Muse 的推理时间与其他几个流行的模型进行了比较。我们在 TPUv4 加速器上对 Parti-3B、Imagen 和 Muse-3B 进行了内部基准测试。对于 Stable Diffusion/LDM，我们使用了最快的报告基准测试（Lambda Labs，2022年），该基准测试是在 A100 GPU 上进行的。对于 Stable Diffusion，我们测试的 TPU 实现并不比 A100 实现更快。我们还报告了 LDM 的推理时间，使用了 250 个迭代，这是在表 2 中实现 FID 所使用的配置。尽管 Muse 的参数数量相当（比Stable Diffusion/LDM 多约 3 倍），但 Muse 明显比竞争性扩散或自回归模型更快。Muse 比Imagen 更快的速度是由于使用离散标记并需要较少的采样迭代。Muse 比 Parti 更快的速度是由于使用并行解码。Muse 比 Stable Diffusion 更快的速度主要归因于需要较少的采样迭代。

3.3. 图像编辑

通过利用我们的模型可以根据图像标记的任意子集进行条件处理的事实，我们可以直接使用该模型进行各种图像编辑应用，无需额外的训练或模型微调。

3.3.1. 文本引导的修复/扩展

我们的采样过程（第2.8节）为我们提供了文本引导修复和扩展：我们将输入图像转换为一组标记，掩蔽掉与局部区域相对应的标记，然后在未掩蔽的标记和文本提示的条件下对掩蔽的标记进行采样。我们通过多尺度方法集成了超分辨率：对于尺寸为 512x512 的图像，我们首先将其减少到256x256 并将两个图像转换为高分辨率和低分辨率标记。然后，我们掩蔽了每组标记的相应区域。接下来，我们使用并行采样算法修复低分辨率标记。最后，我们在这些低分辨率标记的条件下使用相同的采样算法修复高分辨率标记。我们在图 2 和图 10 中展示了这方面的示例。

3.3.2. 零样本无掩蔽编辑

我们在零样本情况下使用 Muse 进行真实输入图像的无掩蔽图像编辑。该方法直接针对（标记化的）图像进行操作，不需要 “反演” 完整的生成过程，与最近的零样本图像编辑技术（利用生成模型的方法）形成对比（Gal等人，2022b；Patashnik等人，2021；Kim等人，2022；Mokady等人，2022）。首先，我们将输入图像转换为视觉标记。接下来，我们迭代地掩蔽和重新采样一组随机标记，以文本提示为条件。我们可以将这看作类似于吉布斯（Gibbs）采样过程，其中我们固定一些标记并在其条件下重新采样其他标记。这会将标记化的图像移动到给定文本提示的条件分布的典型集中。

我们使用低分辨率基础模型进行编辑，然后在最终输出上执行超分辨率（在编辑提示的条件下）。在示例中（图2、图11），我们每次迭代重新采样 8% 的标记，共进行 100 次迭代，引导尺度为4。我们还对标记的逻辑值执行前 k（k = 3）采样，以防止与输入相差太远。迭代的特性允许对最终输出进行控制。图 12 显示了一些中间编辑（不包括超分辨率）；在这个示例中，用户可能会更喜欢第 50 次或第 75 次迭代而不是最终输出。

4. 相关工作

4.1. 图像生成模型

变分自动编码器（Van Den Oord等人，2017年）和生成对抗模型（GANs）已经在图像生成性能方面表现出色，提出了许多变种，包括卷积和 Transformer 架构（例如（Goodfellow等人，2020年；Esser等人，2021年；Karras等人，2019年；Brock等人，2018年；Donahue和Simonyan，2019年））。直到最近，GANs 被认为是最先进的技术。基于渐进去噪原理的扩散模型现在能够以相等或更高的保真度合成图像和视频（Ho等人，2020年；Kingma等人，2021年；Ho等人，2022年）。融合了多种方法原理的混合方法也表现出色（Chang等人，2022年；Lezama等人，2022年），表明各种方法之间存在更多的互补性可以利用。

4.2. 图像标记化

图像标记化因将大部分计算从输入（像素）空间转移到潜在空间（Rombach等人，2022年），或者实现更有效的损失函数（如分类而不是回归）而变得有用，多种生成模型都能够受益于它（Chang等人，2022年；Lezama等人，2022年；Li等人，2022年）。已经开发了许多标记化方法，例如离散 VAE（Rolfe，2016年）、VQVAE（Van Den Oord等人，2017年）和 VQGAN（Esser等人，2021年），其中后者是性能最好的，因为它结合了感知和对抗性损失以实现出色的重建。ViT-VQGAN（Yu等人，2021年）将 VQGAN 扩展到 Transformer 架构。我们使用 VQGAN而不是 ViT-VQGAN，因为我们发现它对我们的模型表现更好，但需要注意，性能更好的标记化模型并不总是转化为性能更好的文本到图像模型。

4.3. 大型语言模型

我们的工作利用了 T5，这是一个在多个文本到文本任务上进行预训练的大型语言模型（LLM）（Raffel等人，2020年）。已经证明 LLMs（包括 T5、BERT（Devlin等人，2018年）和 GPT（Brown等人，2020年；Radford等人，2019年））学习了强大的嵌入，使其能够进行少样本迁移学习。我们在模型中利用了这一能力。现代 LLMs 都是基于标记预测任务进行训练（自回归或非自回归）。在这项工作中，我们利用了关于标记预测的能力，使用 transformer 来预测视觉标记。

4.4. 文本-图像模型

利用配对的文本-图像数据被证明是一种强大的表示学习和生成模型学习范式。CLIP（Radford等人，2021年）和 ALIGN（Jia等人，2021年）训练模型来对齐文本和图像嵌入的配对，展现出出色的迁移和少样本能力。Imagen（Saharia等人，2022年）和 Parti（Yu等人，2022年）使用类似的大规模文本-图像数据集（Schuhmann等人，2021年；2022年）来学习如何从文本输入预测图像，取得了在 FID 和人工评估上的出色结果。一个关键技巧是使用无分类器引导（Ho＆Salimans，2022年；Dhariwal＆Nichol，2021年），它在多样性和质量之间进行权衡。

4.5. 利用生成模型进行图像编辑

GANs 已经被广泛研究，用于图像编辑和操纵能力（参见（Xia等人，2022年）进行调查）。许多技术已经开发在扩散模型上，以实现编辑、个性化和转换到标记空间（Gal等人，2022年；Meng等人，2021年；Ruiz等人，2022年；Kawar等人，2022年；Brooks等人，2022年；Hertz等人，2022年；Mokady等人，2022年）。Dreambooth（Ruiz等人，2022年）和 Imagic（Kawar等人，2022年）涉及到生成模型的微调。ImagenEditor（Wang等人，2022年）将编辑任务构建为文本引导的图像修复，涉及用户指定的掩蔽。

5. 讨论和社会影响

Muse 模型证实了（Saharia等人，2022年）的发现，即冻结的大型预训练语言模型在文本到图像生成中作为强大的文本编码器。在我们的初步实验中，我们还尝试从头开始学习语言模型，但发现性能明显比使用预训练 LLM 差，特别是在长提示和罕见词汇方面。我们还展示了基于 Transformer 架构的非扩散、非自回归模型（non-diffusion, non-autoregressive）可以在推理时间上与扩散模型相匹敌，同时更加高效。我们取得了最先进的 CLIP 分数，显示了图像和文本之间的卓越对齐。我们还展示了我们方法的灵活性，具有许多图像编辑应用。

我们认识到生成模型具有多种应用，对人类社会产生多样潜在影响。生成模型（Saharia等人，2022年；Yu等人，2022年；Rombach等人，2022年；Midjourney，2022年）具有显著的潜力来增强人类创造力（Hughes等人，2021年）。然而，众所周知，它们也可以被用来传播虚假信息、骚扰以及各种社会和文化偏见（Franks＆Waldman，2018年；Whittaker等人，2020年；Srinivasan＆Uchino，2021年；Steed＆Caliskan，2021年）。由于这些重要考虑因素，我们选择目前不发布代码或公共演示。

数据集偏见是另一个重要的伦理考虑因素，因为需要大多数是自动策划的大型数据集。这些数据集存在各种潜在问题，如同意和主体意识（Paullada等人，2021年；Dulhanty，2020年；Scheuerman等人，2021年）。许多常用数据集往往反映了负面的社会刻板印象和观点（Prabhu＆Birhane，2020年）。因此，训练这些数据集可能简单地放大这些偏见，需要进行大量额外的研究，以了解如何减轻这些偏见并生成不包含这些偏见的数据集：这是一个超出本文范围的非常重要的课题（Buolamwini＆Gebru，2018年；Hendricks等人，2018年）。

鉴于上述考虑因素，我们不建议在不考虑各种用例和潜在危害的情况下使用文本到图像生成模型。我们特别警告不要使用这些模型来生成人、人类和面孔。

附录

VQGAN Architecture

我们的 VQGAN 架构与之前的工作（Esser等人，2021b年）类似。它由多个残差块、下采样（编码器）块和上采样（解码器）块组成。主要的区别在于，我们移除了非局部块，使编码器和解码器完全卷积，以支持不同的图像尺寸。在基本的 VQGAN 模型中，我们在每个分辨率中应用 2 个残差块，基本通道维度为 128。对于微调的解码器，我们在每个分辨率中应用 4 个残差块，还将基本通道维度设置为 256。

S. 总结

S.1 主要贡献

本文提出了一个文本到图像的 Transformer 模型 Muse，它在离散标记空间中进行了一个带掩码的建模任务：给定从预训练的大型语言模型（LLM）中提取的文本嵌入，Muse 经过训练来并行地预测随机掩蔽的图像标记。

与像素空间扩散模型（例如，Imagen 和 DALL-E2）相比，Muse 使用 VQ-GAN 获得了离散标记并且需要较少的采样迭代，因此效率显著更高。
与自回归模型（例如，Parti）相比，Muse 由于使用并行解码而更加高效。

S.2 架构和方法

本文使用的框架如图 3 所示。

文本标记。本文使用冻结的预训练 T5-XXL 编码器获得文本标记。

图像标记。训练两个具有不同降采样率的 VQ-GAN 来分别获得用于基础模型和超分辨率模型的图像标记。

基础模型。

其输入是文本标记和图像标记。文本标记不加掩码，图像标记被随机掩蔽一部分。
Transformer 具有多个 transformer 层，包括自注意块、交叉注意块和 MLP 块来提取特征。
在输出层，使用 MLP 将每个被掩码的图像标记转换为一组与 VQGAN 码本大小相对应的标记，并使用与真实标记的交叉熵损失作为目标。
在训练时，基础模型被训练以在每个步骤预测所有被掩码的标记。
在推断时，掩码预测是以并行迭代的方式执行的，这显著提高了质量。

推理时的迭代并行解码。

支持并行解码（在单个前向传递中预测多个输出标记）的关键假设是马尔可夫属性，即许多标记在给定其他标记的情况下是条件独立的。
解码是基于余弦进度表迭代执行的，该表选择要在该步骤预测的具有最高置信度的掩蔽标记的一部分。然后，这些标记在剩下的步骤中被设置为未掩蔽，并且掩蔽标记集合适当减小。

你可能感兴趣的:(论文笔记,人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
智能网关芯片：物联网连接的核心引擎
在物联网（IoT）生态系统中，智能网关芯片扮演着至关重要的角色，它是实现设备互联、数据转换和边缘计算的核心硬件。随着5G、人工智能（AI）和低功耗通信技术的快速发展，智能网关芯片的性能和功能不断提升，推动着智慧家居、工业物联网（IIoT）、智慧城市等领域的创新。智能网关芯片的关键技术智能网关芯片的核心能力在于其多协议支持能力。由于物联网设备采用不同的通信标准（如Wi-Fi、蓝牙、Zigbee、Lo
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement