EDPJ

（2022，GAN，LDM，检索增强，对比潜在优化）LAFITE2：少样本文本到图像生成

LAFITE2: Few-shot Text-to-Image Generation

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 预备知识：探测多模态特征空间

3. 提出的方法：检索然后优化

3.1. 伪文本特征合成：一种检索增强方法

3.2. 伪文本特征精练：对比潜在优化

3.3. LAFITE2 模型实例化

4. 实验

4.1. 无监督预训练

4.2. 零样本和少样本任务迁移

4.3. 消融研究

5. 结论

S. 总结

S.1 主要贡献

S.2 方法和架构

0. 摘要

文本到图像生成模型在近年来取得了显著的进展，现在可以从任意文本生成引人注目的逼真图像。然而，大多数这类模型都是在规模庞大的图像-文本配对数据集上训练的，这对许多研究人员来说可能不可承受。在本文中，我们提出了一种新颖的方法，用于在仅包含图像的数据集上预训练文本到图像生成模型。该方法考虑了检索-优化的过程来合成伪文本特征：对于给定的图像，首先检索相关的伪文本特征，然后进行优化以获得更好的对齐。所提出的方法的要求较低，具有很高的灵活性和可用性：它可以有益于各种设置，包括少样本、半监督和全监督学习；它可以应用于不同的模型，包括生成对抗网络（GAN）和扩散模型。广泛的实验证明了所提出方法的有效性。例如，在 MS-COCO 数据集上，我们的 GAN 模型在全监督设置下实现了 6.78 的 Fréchet Inception Distance（FID），创下了 GAN 在全监督设置下的新最佳成绩（SoTA）。我们的扩散模型在零样本和监督设置下分别实现了 8.42 和 4.28 的竞争性 FID 分数，尽管与现有 SoTA 扩散模型相比，模型规模要小得多。

1. 简介

文本到图像（T2I）生成是计算机视觉中一个吸引人的研究课题，因为它使用自然语言作为指令具有灵活性，并且近年来生成的图像具有高保真度。通用的文本到图像生成仍然具有挑战性，因为不同模态之间的难以融合。为了解决这个问题，已经投入了大量工作，通过设计新的巨大生成模型并在规模庞大的图像-文本配对数据集上进行训练，已经取得了重大进展。从 DALL-E [27] 开始，现在可以使用任意文本输入执行零样本文本到图像生成。这迅速启发了几项后续工作，包括 CogView [6]、潜在扩散模型（LDM）[29]、GLIDE [21] 和 DALL-E2 [26]。这些工作通过将扩散模型 [5, 11] 纳入模型设计中，进一步提高了人类判断和定量评估的结果，在其他生成任务中取得了令人印象深刻的成果。

然而，上述方法也存在各自的缺点，阻碍了它们的广泛使用。例如，这些模型通常由数十亿个参数组成，因此需要在数亿的图像-文本配对上进行训练。高计算成本和对高质量规模庞大数据集的需求可能成为社区中大多数研究团队的主要障碍。此外，尽管这些模型在处理任意文本方面能力强大，但它们在少样本迁移性方面的研究较少。我们认为这实际上是实践中非常重要的能力，特别是当一个人希望生成具有特定风格或在有限领域内的定制领域的图像样本时，这些样本的配对图像-文本样本有限。在文献中，已经知道使用有限样本训练和微调大型无条件生成模型并不是一项容易的任务 [13, 22, 42, 43]，更不用说需要考虑图像质量之外还需要考虑图像文本对应。这使得少样本文本到图像生成比无条件生成更具挑战性。

与这些模型不同，LAFITE [44] 和 KNN-Diffusion [1] 探索了一种新的方向，即无监督或所谓的无语言方法。与前面提到的需要在图像-文本对上进行训练的生成模型不同，它们提出了仅使用图像样本训练文本到图像生成模型的方法，利用了 CLIP [25] 的多模态特征空间。因为 CLIP 被训练成将图像和文本编码到相同的多模态特征空间中，所以在 CLIP 图像特征的条件下的模型也可以使用 CLIP 文本特征进行推断。这些方法要便宜得多，因为图像样本可以很容易地收集，而高质量的图像-文本对需要更多的额外工作，包括人工标题和筛选。然而，与全监督方法和前面提到的大型模型相比，这些无语言模型的性能仍然不令人满意。

在这项工作中，我们进一步利用了无监督文本到图像生成模型，并主张这个框架非常适合少样本条件生成。从分析以前的无语言和全监督方法之间的性能差距开始，我们提出了一种新的无语言方法，取得了新的最新技术。

我们的主要贡献可以总结如下：

我们提出了用于无语言文本到图像生成的 LAFITE2，包括两种合成伪文本特征的新技术：检索增强伪文本特征构建和潜在特征优化。
我们将所提出的技术分别应用于两种广泛使用的 T2I 模型家族。这导致了两种模型：(1) 当应用于基于 GAN 的方法，如 LAFITE [44] 时，得到 LAFITE2_GAN，(2) 当应用于基于扩散的方法，如 LDM [29] 时，得到 LAFITE2_LDM。LAFITE2 在各种场景中表现出良好的可迁移性，有益于少样本、半监督和全监督的文本到图像生成。
我们展示了提出的 LAFITE2 在全监督文本到图像生成中获得了 GAN 的新的最新技术结果，在 MS-COCO [19] 上具有 6.78 的 Frechet Inception Distance（FID）分数。LAFITE2 还在无语言设置中获得了新的最新技术结果。此外，它还在相对于特别大型模型的最新技术结果上展示了可比的零样本结果。

2. 预备知识：探测多模态特征空间

通过在 CLIP 的多模态联合特征空间中生成伪图像-文本对，LAFITE [44] 能够从仅包含图像数据的数据中学习图像-文本对应关系并执行文本到图像生成。然而，如 [44] 所示，使用伪图像-文本对进行训练的定量结果要比使用真实图像-文本对进行训练的结果差得多。我们怀疑这是因为生成的虚假文本特征的一部分可能与真实标题的文本特征有太大的不同。

为验证这一假设，我们进行了一个消融研究。我们从 MS-COCO [19] 数据集中随机抽样了10,000张图像和它们相关的50,000个标题，并按照 [44] 中的方法构建了图像 x_i 的伪文本特征 {h_ij}，如下所示：

其中，f_img 代表 CLIP 的图像编码器，下标 j 用于区分相同图像 x_i 的不同伪特征。我们在 CLIP 的多模态特征空间内计算图像-文本和文本-文本的余弦相似性，它们的分布在图 1 中绘制出来。尽管伪图像-文本对和真实图像-文本对的相似性分布有很大的重叠，但从图 1 中可以看出，LAFITE 生成的伪文本特征与真实文本特征相当不同。从与不同图像关联的文本特征的相似性来看，我们还可以看到 CLIP 文本编码器的有效输出空间非常小，而伪文本特征占据了一个更大的区域。最近的一项研究 [18] 也揭示了与此相关的现象，即多模态模型如 CLIP 的特征空间中，来自不同编码器的特征集中在特征空间的不同狭锥内，不同的模态实际上在多模态特征空间中没有很好地对齐。

我们现在解释上述观察对文本到图像生成任务中模型性能的影响。我们使用 I 和 T 来表示两个有效的输出空间，即图像和文本编码器的所有可能输出的集合，如图 1 所示。我们使用蓝色实线的球形锥形代表 I，而红色虚线对应 T。使用等式（1）生成的所有可能伪文本特征的集合表示为 H_ξ，用黑色虚线表示。H_ξ 是通过向图像特征添加噪声构建的，因此 I ∈ H_ξ。与 [18] 一样，我们不假设 I 和 T 之间重叠。然而，即使它们重叠，我们将要提出的结论仍然成立。

为了确保模型能够学习图像与文本的对应关系，H_ξ 必须与 T 重叠，以便一些生成的伪文本特征位于 T 内。根据（1），H_ξ 必须足够大，以实现重叠。从 [44] 可以看出，LAFITE 在ξ=3 时取得了最佳结果，这意味着已经注入了大量噪声。然而，这样大的扰动也会生成许多位于 T 之外的伪文本特征。因为在推理时所有真实文本特征都会位于 T 内，这些位于 T 之外的伪特征只会表现为异常值，这可能会显著降低测试性能。因此，我们的目标是避免生成这些嘈杂的特征。为此，我们提出了一种新方法，以确保生成的伪文本特征能够很好地位于 T 内。

3. 提出的方法：检索然后优化

为了解决仅使用图像样本进行预训练时的上述不一致问题，我们提出了一种检索-优化方法。它包括两个阶段：一种检索增强方法，用于从合成文本构建初始伪特征（第3.1节），以及一种对比潜在优化过程，以更好地将伪文本特征与其配对的图像对齐（第3.2节）。我们的检索-优化方法的核心思想如图 2 所示，可以如图 1 所示生成更好的伪文本特征。

3.1. 伪文本特征合成：一种检索增强方法

第一阶段，我们采用检索增强方法，分为四个步骤，以 MS-COCO 为例，详细描述如下。

步骤 1：词汇表构建。我们基于 CLIP 的词汇构建我们的词汇表，大小为 49,408。首先过滤掉非文本项，如表情符号和标点符号，然后构建不同类别的几个较小的词汇表，包括：（i）名词，包括不同地方、职业、生物、物体和抽象概念（例如，生命）。这些名词可以作为标题中的主语或宾语；（ii）动词，表示关系，如做、来、清洁；（iii）数词和量词，如一个、两个、一些、许多；（iv）形容词，如红色、绿色、大的；请注意，如果预训练数据集是有意收集的，可以根据先验知识进一步过滤或为自定义数据集构建额外的词汇表。例如，对于只包含人脸的自定义数据集，可以过滤掉许多名词，只保留那些面部特征。还可以构建一个包含短语的额外词汇表，如戴眼镜、戴耳环等。

步骤 2：图像到词汇的检索。对于构建的词汇表中的每个词，我们使用预训练的 CLIP 文本编码器提取其文本特征。我们将单词特征表示为 {w_ij}，其中 w_ij 表示它是第 i 个词汇表中第 j 个词的特征。给定一张图像 x，我们使用 CLIP 图像编码器提取其视觉特征，并计算其与每个 w_ij 的余弦相似度。对于每个词汇表，检索与查询图像最相似的前 K 个词。

步骤 3：提示生成。受 [25] 中的语言提示成功的启发，我们在领域中构建了一组模板。我们的语言提示（即伪标题/句子）是通过将检索到的词与模板进行组合构建的。具体而言，MSCOCO 的提示模板为 “{Numeral/Quantifierg} {Adjective} {Noun} {Verb} {Adjective} {Noun}”。相应的词适应到模板中生成伪标题，生成 K^6 个伪标题。

步骤 4：图像到提示的检索。然后，将生成的标题馈送到 CLIP 文本编码器中，以获取相应的文本特征，用于图像到提示的检索。只有那些与给定图像特征具有高余弦相似性的文本特征将用作图像的相应文本特征，这些文本特征被保证位于 T 内，因为它们是文本编码器的输出。

注意：当 K 较大或模板数较多时，伪标题的数量可能非常大。由于所有伪标题都必须输入 CLIP 文本编码器以获取它们的文本特征，因此更多的前馈会导致更多的处理时间。为了加快速度，可以按迭代方式执行第 3 步和第 4 步。例如，首先使用更简单的模板 "{Noun} {Verb} {Noun}"，它会生成 K^3 个关系。然后，通过使用给定图像进行查询，从中选择 K 个关系。所选的单词表示为

然后将它们插入到 "{Numeral/Quantifier} {Adjective} Noun_i Verb_i {Adjective} Noun_i"。然后再次执行相同的步骤，这将生成 K_4 个伪标题。总共生成了 (K+1)K^3 个伪标题，远小于 K^6（对于任意 K≥2）。

检索增强过程可以线下执行一次。与构建 MS-COCO 数据集所花费的 70,000 小时相比，所提出的方法仅需要在单个 Nvidia Tesla V100 GPU 上花费 5 小时。在实践中，我们注意到仅基于模板的文本特征进行训练可能会导致过拟合。因此，我们还应用高斯扰动作为数据增强。如实验所示，这可以防止过拟合，从而提高我们预训练模型的性能。

3.2. 伪文本特征精练：对比潜在优化

我们的第二阶段考虑了第一阶段生成的伪文本特征作为初始化，旨在在 CLIP 多模态特征空间中进行优化，以便它们能更好地与它们的配对图像对齐。按照 [44] 的方法，我们使用相同的基于 StyleGAN2 的网络架构 [16]。生成器同时将文本特征和随机噪声作为潜在输入。让 {h_ij} 是图像 x_i 的对应伪文本特征。在每个训练迭代中，我们采样一小批真实图像，用

表示，其中 n 是小批量大小。对于每个图像 x_i，我们从 {h_ij} 中随机采样一个特征，表示为 (h^0)_i。然后，

将使用等式 (2) 进行优化，本质上是使用

评估的对比损失的优化。

在这里，T ≥ 0 表示潜在优化更新的次数，η > 0 是步长，"Sim" 表示余弦相似性。直观地说，等式 (2) 使文本特征 (h^t)_i 与相应的真实图像特征 f_img(x_i) 更相似，同时与其他图像特征 {f_img(x_j)}_j≠i 施加差异性。

理论上的解释。我们解释了为更好地实现图像文本对齐提出的对比潜在优化（contrastive latent optimization，CLO）的基本理论原理。[44] 表明，通过对比损失可以显著改善模型性能。具体来说，我们给出了一批图像-文本特征对

其中 x'_i 和 h_i 分别表示生成的图像和输入特征。生成器 G_θ 的损失定义为标准对抗性损失和额外的对比损失的组合：

其中 τ > 0 是一个超参数，

表示随机噪声。直观地说，等式（3）强制生成的图像 x'_i 在 CLIP 的多模态特征空间中与相应的输入文本特征 h_i 具有高余弦相似性，同时与其他特征 {h_j}_j≠i 具有低余弦相似性。本质上，对生成器而言，对比损失提供了图像与文本的对应关系信息，从而提高了文本到图像生成的效果。然而，我们发现在某些情况下，梯度范数 ||▽_θ L||2 可能会变得太小，无法为生成器提供足够的信息。具体地，我们可以证明如下的定理 1：

定理 1。假设

是一个生成的图像的小批量，

是输入生成器 G_θ 的相应文本特征。对于等式（3）中的对比损失 L，我们有

其中 a ≥ 0 是一个与 CLIP 图像编码器和我们的生成器相关的常数，σ ≥ 0 表示对比 loss {c_ji} 的标准差。

定理 1 表明梯度范数受到一个随 σ 增加而增加的值的限制。我们可以很容易地发现，当对于所有 i, j 满足 Sim(f_img(x'_j), h_i) = b，其中 b 是一个常数时，最小的 σ = 0 被获得。直观地说，小的 σ 意味着输入文本特征对于生成的图像来说是无法区分的。因此，对比损失不能提供有用的信息，因为梯度范数太小。这种情况可能发生在许多情况下，包括：(i) 在全监督设置下，文本标题不够精确和信息丰富；(ii) 在无监督设置下，由于没有监控和纠正，生成的文本特征可能不合适；(iii) 生成的图像是模糊和不准确的，这在训练的早期阶段很常见。通过对比潜在优化技术，生成的伪文本特征会得到更新，使它们更具区分性，这通常会导致更大的方差。请注意，我们不会使用 σ^2 的梯度来更新样本，因为我们希望确保图像文本对应关系得到正确保持；而仅仅基于 σ^2 来更新可能会损害这种对应关系。

3.3. LAFITE2 模型实例化

本文提出的伪文本特征合成技术是通用的，可以插入现有的文本到图像（T2I）方法以提高其性能。我们使用两个流行的模型系列来进行演示。

LAFITE2_GAN。StyleGAN 及其后续工作是一系列用于无监督或标签条件图像生成的最强大的 GAN 模型，已经在 LAFITE [44] 中为 T2I 任务进行了调整。为了公平比较，我们采用了与 LAFITE [44] 相同的网络架构，并用本文提出的方法生成的伪文本特征替换了之前的伪文本特征。对于给定的数据集，我们首先使用本文提出的方法为每个图像构造伪标题。然后，使用 CLIP 文本编码器获取构建的标题的文本特征。文本特征将通过等式（2）进行更新，并注入 StyleGAN2 的 Style Space [37]。由于 Style Space 已经很好地解耦 [37]，将文本特征注入到 Style Space 将有效地迫使生成的图像与文本对齐。

LAFITE2_LDM。最近的发展中，扩散方法被认为是 T2I 任务最有效的模型家族，其中 LDM [29] 及其后继模型稳定扩散是研究界可用的最强大的模型。因此，我们将本文提出的检索增强技术应用于 LDM，其训练目标解决了图像 x 的潜在表示 z 上的去噪问题：

其中，t 是从 {1, ..., T} 均匀采样的时间步，z_t 是输入 z 的第 t 步的噪声变体，y 是标题条件，f_denoise(*, t, y)是通过 UNet [30] 实现的以 (t, y) 为条件的去噪自编码器。在原始的 LDM 中，BERT [4] 用于获取每个标题的文本嵌入序列 f_bert(y)，它被馈送到等式 (4) 中以替代 y。时间 t 首先映射到时间嵌入 Φ(t)，然后被注入到 UNet 中。与原始的 LDM 不同，我们的 LAFITE2_LDM 模型在去噪过程中引入了额外的输入：CLIP 文本特征 f_text(y)。CLIP 文本特征首先通过线性层 P 进行投影以对齐维度，然后通过 Φ'(t) = Pf_text(y) + Φ(t) 与时间嵌入相加。Φ'(t) 用于替代原始时间嵌入 Φ(t)。在无监督的预训练阶段，我们只使用了在第 3.1 节中通过提出的检索增强方法生成的合成标题。在使用真实图像文本对进行微调和评估阶段，使用真实标题。

4. 实验

在本节中，我们研究了提出的方法以回答两个研究问题。Q1：在单个数据集中进行预训练和微调时，我们的方法如何有助于在特定领域进行全监督和半监督学习？(第4.1节) Q2：在通用语料库上进行预训练，然后适应下游数据集时，LAFITE2 是否有助于零样本和少样本任务级别的迁移？(第4.2节)

设置和评估指标。所有实验均在 4 个 Nvidia Tesla V100 GPU上使用 Pytorch [23] 实施。为了进行公平比较，我们遵循 LAFITE [44] 和 LDM [29] 中的相同网络架构。下游任务使用标准数据集，包括 MS-COCO [19]、CUB [35]、MM-CelebA-HQ [38] 和 LN-COCO [24]。数据统计信息在附录中提供。为了定量衡量图像生成质量，我们报告了 Fr´echet Inception Distance (FID) [9] 和 Inception Score (IS) [32]，它们是使用从 MS-COCO、CUB 和 LN-COCO 数据集的验证集中随机抽样的文本输入生成的 30K 张图像进行计算的，MM-CelebA-HQ 数据集生成了 6K 张图像，参照 [38, 44]。我们还报告了在 MS-COCO 数据集上的语义对象准确性（Semantic Object Accuracy，SOA），这是根据先前的工作[24,41,44] 进行的，评估生成的图像是否包含所需的对象。附录中提供了一些生成的示例。所有代码和预训练模型将被公开提供。

4.1. 无监督预训练

在这个实验中，我们的模型首先使用提出的方法生成的伪图像文本对进行预训练，然后使用来自相同数据集的真实图像文本对进行微调。

我们首先研究全监督的设置，其中提供所有真实图像文本对，并在不同数据集上比较提出的方法与当前的最先进技术。 (i) 对于 LAFITE2_GAN，模型首先在来自与伪文本特征配对的下游数据集的训练图像上进行预训练（称为域内预训练），然后使用真实文本特征进行微调。 (ii) 对于LAFITE2_LDM，模型首先在一组未标记的图像上进行预训练，这些图像与下游数据集没有重叠（称为近域预训练），然后使用来自下游数据集的真实图像文本对进行微调。我们的 LAFITE2_LDM 是从 [29] 提供的公开检查点（具有 14 亿个参数）初始化的，我们只更新包含 8.7 亿参数的 UNet 部分，并冻结处理文本嵌入的 transformer 部分，然后将其馈送到 UNet 之前。我们将我们的方法与不同的全面监督方法进行比较，包括 AttnGAN [39]、Obj-GAN [17]、DM-GAN [45]、OPGAN [10]、DF-GAN [34]、XMC-GAN [41]、LAFITE [44] 和 Make-A-Scene [7]。注意， [29] 只在 MS-COCO 数据集上提供了零样本文本到图像生成的结果，为了报告 LDM 的全面监督性能，我们对由作者提供的 MS-COCO 数据集上的检查点进行了微调。主要结果如表 1 所示，显示我们的方法在所有指标上均优于其他方法。对于 LAFITE2_LDM，报告了微调步骤 10K 时的检查点。我们发现它在 FID 结果方面略好于更长时间的训练，例如 100K 步。

然后考虑更灵活的设置：半监督文本到图像生成，其中提供了所有下游训练图像，但只有其中的一些有相应的标题。这更为实际，因为可以根据可用的资源和预算选择要生成标题的图像数量。具体来说，我们提供了 10、20、50、100 个图像文本对，用于微调无监督预训练模型。在 LAFITE2_GAN 的微调期间，使用了 Freeze-D [20]。在定量评估中，我们选择了两种不同的方法作为基线方法： (i) LAFITE：使用 LAFITE 生成的伪图像文本对进行预训练，然后使用提供的图像文本对进行微调； (ii) SEMI：直接从头开始训练模型，使用 LAFITE 生成的伪对和真实对的混合。当没有提供真实对时，这两种基线方法变得相同。结果如表 2 所示，我们的方法在所有少样本情况下明显优于基线。

4.2. 零样本和少样本任务迁移

对于任务级的迁移，预训练数据集和下游数据集之间没有图像重叠。根据预训练数据，我们准备了提出方法的两个变体，分别表示为 LAFITE2 和 LAFITE2（ND），其中 ND 代表近领域，意味着预训练数据集被选择为与下游数据集相关。例如，当下游数据集是包含各种鸟类图像文本对的 CUB 数据集时，我们可以使用 Birdsnap 数据集 [2] 作为预训练数据集，它是一个仅包含 49,829 只鸟的图像的数据集。更多细节可以在附录中找到。

零样本。零样本文本到图像生成的结果如表 3 所示。我们的方法实现了与 DALL-E2 可比的结果，但模型规模小得多。与通常导致 SoTA 性能的自回归模型和扩散模型相比，所提出的 LAFITE2_GAN 具有较低的推断时间的有利特性。LAFITE2_LDM 以较大的模型大小和较高的推断时间获得了更好的性能。我们将 LAFITE2_LDM 与原始 LDM 在图 3 中进行了比较，从中可以看出改进是明显的：使用所提出的方法，我们可以生成质量更好的图像并避免生成非预期的图像样式。更具体地说，由于我们希望生成与来自 MS-COCO 的样本相似的图像，我们希望生成的图像是逼真的照片，而不是卡通图像或油画。通过利用近领域的仅图像数据集，我们可以强制 LDM 生成所需的文本对齐图像。与性能提升相比，构建这样的数据集的工作量可以忽略不计，因为它仅需要没有标题的图像样本。

少样本。少样本文本到图像生成是一个更实际但不太被探索的领域。如表 4 所示，从零开始进行少样本设置的训练具有挑战性，无法获得令人满意的结果。相反，微调预训练模型可以获得更好的结果。结果如表 4 所示，为模型适应提供了 10、20、50、100 个训练图像文本对。我们还在表 5 中比较了 LDM 上的适应过程。从结果中可以得出结论：(i) 我们的预训练更加通用，通过微调可以实现更好的少样本文本到图像生成；(ii) 我们的预训练模型更容易微调，比 uGAN、LAFITE 和 LDM 可以得到更好的结果。

4.3. 消融研究

潜在优化的有效性。我们通过在 MS-COCO [19] 上进行一个实验来验证所提出的对比性潜在优化（contrastive latent optimization，CLO）组件。为简单起见，我们没有使用任何图像特征生成伪文本特征。相反，文本特征通过 h_ij = ε_ij / ||ε_ij||^2, ε_ij ~ N(0, I) 在超球上均匀初始化，然后使用等式（2）进行更新。我们训练了两个 LAFITE2_GAN 模型，批量大小为 64，进行了 800K 次迭代。全监督模型是从头开始使用真实的图像文本对进行训练的。另一个模型首先使用 CLO 生成的伪图像文本对进行预训练，然后再使用真实对进行微调。如图 4 所示，使用 CLO 进行预训练比从头开始训练得到更好的结果。

组件分析。我们进一步使用高斯扰动、CLO 和检索增强方法生成的伪文本特征对两个模型进行预训练。然后，我们在 MSCOCO 的 0%、0.1%、1%、10%、100% 的真实图像文本对上对所有三个预训练模型进行微调。结果见表 6 和表 7。在少样本设置中，所提出的检索方法在生成质量和图像文本对应方面取得了最佳结果。然而，在提供更多标题时，它的表现不如高斯扰动和 CLO。这是因为模型倾向于过度拟合模板的特定结构。CLO 相对于高斯扰动获得了更好的图像文本对应关系，从而验证了我们之前的动机和假设。最后，将这三个组件组合在一起在整体上取得了最佳结果，并且可以减轻过度拟合问题。

5. 结论

在这项工作中，我们提出了 LAFITE2，一种新颖的文本到图像生成任务的无监督预训练方法，只需要图像样本，同时可以获得良好的图像文本对应关系和生成质量。LAFITE2 具有良好的可迁移性，可以在许多不同的设置中受益。所提出的方法在不同数据集上的全监督设置中取得了有希望的结果。我们还在少样本和半监督上评估了所提出的方法，并与相关方法相比取得了更好的结果。我们相信这种无监督预训练方法将有助于该领域，因为它在不同设置下表现出有希望的性能，且在构建图像文本数据集方面需要的人力工作量较低。

S. 总结

S.1 主要贡献

本文提出了用于无语言文本到图像生成的 LAFITE2，使用仅包含图像的数据集预训练文本到图像生成模型，它包括两种合成伪文本特征的新技术：检索增强伪文本特征构建和潜在特征优化。

该方法的要求较低，具有很高的灵活性和可用性：它可以有益于各种设置，包括少样本、半监督和全监督学习；它可以应用于不同的模型，包括生成对抗网络（GAN）和扩散模型。

S.2 方法和架构

检索增强的方法，分为四个步骤，如图 2 所示。

词汇表构建：包括名词、动词、数词和量词、以及形容词。
图像到词汇的检索：使用 CLIP 图像编码器提取其视觉特征。在词汇表中检索与最符合图像的 K 个词。
提示生成：基于模板使用检索到的词汇生成多个提示。
图像到提示的检索：将生成的标题送到 CLIP 文本编码器中，以获取相应的文本特征。保留与视觉特征最相似的文本特征。

对比潜在优化。为了使生成的伪文本特征能更好地与它们的配对图像对齐，通过迭代优化的方法，基于文本特征和图像特征的对比损失来获得更好的伪文本特征。

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,机器学习)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS liferecords LLM 语言模型人工智能自然语言处理
UNDERSTANDINGHTMLWITHLARGELANGUAGEMODELS相关链接：arXiv关键字：大型语言模型、HTML理解、Web自动化、自然语言处理、机器学习摘要大型语言模型（LLMs）在各种自然语言任务上表现出色。然而，它们在HTML理解方面的能力——即解析网页的原始HTML，对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型（经过微调
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
零基础机器学习(5)之线性回归模型的性能评估一只特立独行猪机器学习机器学习线性回归人工智能
文章目录线性回归模型的性能评估1.举例1-单一特征2.举例2-多特征线性回归模型的性能评估评估线性回归模型时，首先要建立评估的测试数据集（测试集不能与训练集相同），然后选择合适的评估方法，实现对线性回归模型的评估。回归任务中最常用的评估方法有均方误差、均方根误差和预测准确率（确定系数）。1.举例1-单一特征分别对两个模型进行评估，输入的测试集如表所示。面积/（m2）售价/（万元）面积/（m2）售价
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
深度学习与（复杂系统）事物的属性科学禅道深度学习模型专栏深度学习人工智能
深度学习与复杂系统中事物属性的关系体现在：特征学习与表示:深度学习通过多层神经网络结构，能够自动从原始输入数据中学习和提取出丰富的特征表示。每一层神经网络都可能对应着事物属性的不同抽象层次，底层可能对应简单直观的属性，而随着网络深度的增加，顶层可以学习到更抽象、复杂的属性及其相互关系。非线性关系建模:深度学习特别擅长处理非线性关系，而在复杂系统中，事物属性间的相互作用往往表现为非线性，例如，某些属
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
神经网络（深度学习，计算机视觉，得分函数，损失函数，前向传播，反向传播，激活函数） MarkHD 深度学习神经网络计算机视觉
神经网络，特别是深度学习，在计算机视觉等领域有着广泛的应用。以下是关于你提到的几个关键概念的详细解释：神经网络：神经网络是一种模拟人脑神经元结构的计算模型，用于处理复杂的数据和模式识别任务。它由多个神经元（或称为节点）组成，这些神经元通过权重和偏置进行连接，并可以学习调整这些参数以优化性能。深度学习：深度学习是神经网络的一个子领域，主要关注于构建和训练深度神经网络（即具有多个隐藏层的神经网络）。通
什么是特征检测和描述，OpenCV中常见的特征检测算法有哪些？ -Max-静- #opencv学习 opencv 算法人工智能
特征检测和描述是计算机视觉中的基本概念，它们在图像识别、对象跟踪、图像拼接等多种任务中发挥着至关重要的作用。特征检测是指识别图像中重要的特定点、区域或结构，这些特征通常具有独特性、可重复性以及对光照变化、旋转和比例变换等变化的鲁棒性。这些特征点可以用作进一步分析的参考。特征描述是基于一定的几何或者颜色信息生成特征点的特征描述符，这种描述应满足欧式空间的仿射不变性和噪声鲁棒性，并且不同特征点的特征描
2022-05-14 败者食尘_40a0
本文结构速览：一、SQL题二、机器学习&概率论三、开放性问题01SQL题面试真题：现有一张用户签到表（user_sign_d）,标记用户每日是否签到，表结构如下sign_date:日期user_id:用户IDif_sign:当日是否签到,1表示签到，0表示未签到问题①：请计算截止到当前每个用户已经连续签到的天数（输出表仅包含当天签到的所有用户，计算其连续签到的天数）输出表结构如下：user_id:
Android 实现照片抠出人像。 No Promises﹉ android
谢谢阅览、关注！！一、各平台的实现方式：1.Android实现方式：使用图像处理库（如OpenCV）：集成OpenCV库，利用其图像处理功能进行边缘检测和图像分割；使用机器学习模型（如TensorFlowLite）：集成TensorFlowLite和预训练的人像分割模型；使用第三方API服务：利用如百度AI、腾讯AI等提供的在线API进行图像处理。步骤：集成必要的库或API、加载和处理图像、应用抠
MATLAB 2023a：强化学习算法的实战演练与性能评估 zmjia111 机器学习 matlab matlab 算法开发语言深度学习机器学习 yolo
在深度学习领域，MATLAB2023版深度学习工具箱以其完整的工具链和高效的运行环境，为研究人员和开发者提供了前所未有的便利。这一工具箱不仅集成了建模、训练和部署的全部功能，更以其简洁易用的语法和强大的算法库，为深度学习任务的快速实现铺平了道路。相较于Python等编程语言，MATLAB的语法更为直观，上手更为迅速。无需繁琐的环境配置和库安装，用户只需打开MATLAB界面，即可轻松开始深度学习之旅
Python机器学习笔记：CART算法实战战争热诚
完整代码及其数据，请移步小编的GitHub传送门：请点击我如果点击有误：https://github.com/LeBron-Jian/MachineLearningNote前言在python机器学习笔记：深入学习决策树算法原理一文中我们提到了决策树里的ID3算法，C4.5算法，并且大概的了
动手学习深度学习——2.5 自动微分 X_Imagine 动手学习深度学习深度学习人工智能自动微分
2.5自动微分正如【2.4微积分】所说，微分是深度学习中几乎所有最优化算法的关键步骤。虽然求这些导数的计算过程很简单，只需要一些基本的微积分知识。但对于复杂的模型，手工计算参数的更新可能很痛苦(而且经常容易出错)。深度学习框架通过自动计算导数加快了这一工作，即自动微分（AutomaticDifferentiation）。在实践中，基于我们设计的模型，系统构建了一个计算图，跟踪哪些数据结合哪些操
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
最新ChatGPT支持下的PyTorch机器学习与深度学习 zkzhzy ChatGPT 机器学习 python 机器学习深度学习 pytorch chatgpt 数据分析人工智能
近年来，随着AlphaGo、无人驾驶汽车、医学影像智慧辅助诊疗、ImageNet竞赛等热点事件的发生，人工智能迎来了新一轮的发展浪潮。尤其是深度学习技术，在许多行业都取得了颠覆性的成果。另外，近年来，Pytorch深度学习框架受到越来越多科研人员的关注和喜爱。郁磊（副教授）主要从事AI人工智能、大语言模型及软件开发、生理系统建模与仿真、生物医学信号处理，具有丰富的科研经验，主编《MATLAB智能算
神经网络量化小厂程序猿人工智能
神经网络量化（NeuralNetworkQuantization）是一种技术，旨在减少神经网络模型的计算和存储资源需求，同时保持其性能。在深度学习中，神经网络模型通常使用高精度的参数（例如32位浮点数）来表示权重和激活值。然而，这种表示方式可能会占用大量的内存和计算资源，特别是在部署到资源受限的设备（如移动设备或嵌入式系统）时会受到限制。神经网络量化通过将模型参数和激活值从高精度表示（例如32位浮
神奇的微积分科学的N次方人工智能人工智能 ai
微积分在人工智能（AI）领域扮演着至关重要的角色，以下是其主要作用：优化算法：•梯度下降法：微积分中的导数被用来计算损失函数相对于模型参数的梯度，这是许多机器学习和深度学习优化算法的核心。梯度指出了函数值增加最快的方向，通过沿着负梯度方向更新权重，可以最小化损失函数并优化模型。•反向传播：在神经网络训练中，微积分的链式法则用于计算整个网络中每个参数对于最终损失函数的影响（偏导数），这一过程就是反向
机器学习简介 Dayueban
@我的博客：有味写在前面在年前将要进行靶向代谢组学测定的样品送去公司，随之想想，还有一个半月的时间数据才会回来，那么这段时间是不是可以先学习下分类数据如何分析呢（PS:因为数据是属于分类性质的），所以不久前买的一本书——《机器学习与R语言》稍微系统学一遍，该书为美国的BrettLantz所著，翻译工作由我国学者李洪成、许金炜、李舰完成。学习本书的主要目的是了解机器学习的思想，以及所应用的领域，当然
regression机器学习回归预测模型参考学习后自我总结饮啦冰美式机器学习回归学习
简单来说，就是将样本的特征矩阵映射到样本标签空间。回归分析帮助我们理解在改变一个或多个自变量时，因变量的数值会如何变化。线性模型线性回归用于建立因变量和一个或多个自变量之间的线性关系模型。在线性回归中，假设因变量（被预测变量）与自变量（预测变量）之间存在着线性关系，也就是说，因变量的数值可以通过自变量的线性组合来预测。普通最小二乘线性回归。通过最小化实际观测值与模型预测值之间的误差平方和，可以找到
线性代数在卷积神经网络（CNN）中的体现科学的N次方人工智能线性代数 cnn 人工智能
案例：深度学习中的卷积神经网络（CNN）在图像识别领域，卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一个广泛应用深度学习模型，它在人脸识别、物体识别、医学图像分析等方面取得了显著成效。CNN中的核心操作——卷积，就是一个直接体现线性代数应用的例子。假设我们正在训练一个用于识别猫和狗的图像分类器，原始输入是一幅RGB彩色图片，可以将其视为一个高度、宽度和通道数（R
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文