EDPJ

（2022|NIPS，CogLM，分层，LoPAR，icetk）CogView2：通过分层 Transformer 更快更好地文本到图像生成

CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers

公众号：EDPJ（添加 VX：CV_EDPJ 或直接进 Q 交流群：922230617 获取资料）

0. 摘要

1. 简介

2. 相关工作

3. 方法

3.1 跨模态通用语言模型

3.2 预训练

3.3 分层生成

4. Transformer 的插件改进技术

4.1 分簇采样

4.2 局部注意力

4.3 加强文本注意力（Upweighting Textual Attention）

5. 实验

5.1 数据集

5.2 机器评估

5.3 人类评估

6. 讨论

7. 结论

参考

附录

A. icetk 标记器的详细信息

A.1 文本标记器

A.2 图像标记器

B. 高分辨率文本引导填充

S. 总结

S.1 主要贡献

S.2 方法

S.3 自回归模型的缺点及解决措施

0. 摘要

对于高分辨率图像来说，基于 Transformer 的文本到图像模型的开发因其生成速度慢且复杂而受到阻碍。在这项工作中，我们提出了一种基于分层 Transformer 和局部并行自回归生成的解决方案。我们使用简单灵活的自监督任务，一个跨模态通用语言模型 (cross-modal general language model，CogLM)，来预训练 6B 参数的 Transformer ，并对其微调以实现快速超分辨率。新的文本到图像系统 CogView2 与同时期最先进的 DALL-E-2 相比，显示出具有竞争力的生成性能，并且自然是支持图像上的交互式文本引导编辑。

1. 简介

最近，大规模预训练 Transformer 极大地推进了文本到图像的生成，例如 DALL-E [26] 和 CogView [3]。这些模型学习以自回归方式生成图像标记。然而，它们也存在以下缺点：

缓慢的生成。

在具有相同的算力（FLOP）时，自回归模型的生成通常比非自回归模型（例如 GAN [10]）的生成慢得多。
这一缺点不是因为大量的参数 [25]，而是归因于自回归模型中使用的逐标记生成的性质，即使在缓存隐状态后，也无法利用 GPU 的并行计算能力。这是一个很大的限制。

昂贵的高分辨率训练。目前的大规模预训练模型通常基于 Transformers [30]，其中注意力操作对于长度为 n 的训练序列具有 O(n^2) 的时间和空间复杂度。在有限的预算内，面临着参数数量（代表建模能力）和生成图像的分辨率之间的权衡。因此，当前大多数文本到图像模型选择 32*32 tokens（通常为 256*256 像素）[3,26,11] 的分辨率，其密度远低于真实照片的分辨率。

单向性。

对于图像，自回归模型，例如 GPT，通常按光栅扫描（raster-scan）顺序生成标记。这个顺序显示了评估过程中最好的困惑度（perplexity） [7]。然而，这种顺序使得模型在生成过程中不知道下面或右侧的标记，因此不支持文本引导的填充。
此外，单向性导致预训练的文本到图像模型和基于双向掩蔽预测的视觉转换器（vision transformers，ViT）[5] （例如 MAE [12] 和 SimMIM [34]）之间存在差距， - 限制了它们在传统视觉任务上的应用，例如图像分类和目标检测。

当前工作。

为了克服这些缺陷，我们首先提出了一种简单且通用的预训练方法，即跨模态通用语言模型（Cross-Modal general Language Model，CogLM）。
我们的 CogLM 掩蔽了文本和图像标记序列中的各种类型的标记，并学习自回归地预测它们。具体来说：
(1) 如果掩蔽所有图像标记，则任务在执行文本到图像生成时变得与原始 CogView [3] 相同；
(2) 如果随机掩蔽图像标记的补丁，它的工作原理类似于 MAE 的填充任务；
(3) 如果掩蔽文本标记，任务就变成图像标题。

CogLM 的多功能性使我们能够针对不同的下游任务对预训练的 CogLM 进行微调，并构建分层模型 CogView2。分层生成分为三个步骤：

1）首先，使用预训练的 CogLM 生成一批低分辨率图像（CogView2 中的 20*20 标记），然后（可选）根据 CogLM 图像标题的困惑度过滤掉坏样本，这就是 CogView [3] 中引入的后选择方法。
2）生成的图像通过从预训练的 CogLM 微调的直接超分辨率模块映射为 60*60-token 图像。我们使用定制的 CUDA 内核实现的局部注意力来减少训练代价。此步骤生成的高分辨率图像通常纹理不一致且缺乏细节。
3）这些高分辨率图像通过另一个迭代超分辨率模块进行精练，该模块是根据预训练的 CogLM 进行微调的。大多数标记以局部并行自回归（local parallel autoregressive，LoPAR）方式重新掩蔽和重新生成，这比原始自回归生成要快得多。

CogView2 如何克服三个缺点？

首先，在预训练期间，掩蔽补丁预测任务训练 CogLM 处理双向上下文，使其易于适应双向任务，例如，直接和迭代超分辨率。
其次，分层设计使我们能够只关心高分辨率级别的局部一致性。这样，就可以利用局部注意力来减少训练代价。
第三，局部并行自回归生成可以将模型运行时间从 3,600 次减少到 6 次（仅 1/600），显着加速高分辨率图像的生成。 CogView2 比 CogView（具有滑动窗口超分辨率）快约 10 倍，可以生成类似分辨率和更好质量的图像。

2. 相关工作

文本到图像生成。

任意输入的文本到图像生成是许多跨模式机器学习研究人员长期以来的梦想。
大多数解决这一挑战的早期尝试都是基于生成对抗网络（GAN） [10]；这些包括 AttnGAN [35]、DM-GAN [40]、DF-GAN [28] 等。尽管它们可以对特定领域的数据集（例如 Caltech-UCSD Birds 200）进行生动的合成，但通用领域的数据集（例如 MS COCO [17]）对这些方法提出了巨大的挑战。
DALLE [26]、CogView [3] 和类似的作品 [33, 8] 利用 VQ-VAE [29] 将图像压缩为一系列离散标记，并预训练大型 transformer 以进行自回归生成，从而极大地改善了通用领域的结果。
LAFITE [39] 学习反转文本和图像共享空间中预训练的 CLIP [23] 嵌入，以进行无文本训练。
最近，许多研究人员转向扩散模型，很大程度上是由于自回归模型的缓慢生成缺陷。 Glide [19] 就是一个例子。

非自回归生成（NAR）。

非自回归生成（NAR）最近是自然语言生成中的一个热门话题——参见 Mask-Predict [9] 和 GLAT [21]，它们探索了类自回归模型的并行解码方法。
在 GAN 主导图像生成的时代，生成速度不是问题，但对当前的自回归文本到图像模型构成了相当大的挑战。
M6-UFC [38] 首先将 NAR 方法引入 VQ-VAE 框架中，VQ-diffusion [11]和 MaskGIT [1]也采用了类似的想法。
纯 NAR 方法的一个可能的缺点是，同时采样的标记可能会导致复杂场景生成过程中后续步骤中的全局不一致。
我们的方法引入了分层设计，将自回归模型的一致性优点和 NAR 方法的速度优势结合起来。

3. 方法

3.1 跨模态通用语言模型

虽然以前的自监督前置任务（pretext tasks）通常针对计算机视觉中的掩蔽预测 [34, 12]，但我们的方法追求自回归生成和双向上下文感知掩蔽预测的统一。

在 NLP 中，通用语言模型（General Language Model，GLM）[6] 建议将直接掩蔽预测更改为按块的自回归生成。然而，直接将其应用于图像会导致冗余。例如，掩蔽图像块的大小是固定的，因此我们不需要像 NLP 中那样填充不定长度的块的能力。此外，GLM 为每个掩蔽区域插入一个哨兵（sentinel）标记来预测其第一个标记，这大大增加了序列长度，从而限制了 2D 局部注意力的使用。

基于上述分析，我们提出了一种针对文本和图像数据的更简单、更通用的语言模型——跨模态通用语言模型（CogLM）。如图 2 所示，CogLM 将由 icetk（http://github.com/THUDM/icetk）标记化的文本和图像串联作为输入（参见第 3.2 节），其字典包含 20,000 个图像标记和 130,000 个文本（中文和英文）标记。形式上，令 t = [t_1，...，t_M] 是文本标记，im = [im_1，...，im_N^2 ] 是图像标记，其中 M 和 N^2 分别是文本和图像标记的长度。

CogLM 中的关键步骤是根据不同的策略对 k 个掩蔽区域 R = { [L_0, r_0]，...，[L_k，r_k] } 进行采样。在实践中，使用以下两种策略：

（文本到图像 GPT）输入序列为 x = [ t [BOI] im ]。我们掩蔽所有图像标记，这与 CogView [3] 的预训练任务类似。
（掩蔽预测和图像标题的组合）输入序列为 x = [im_0 ... im_i ... im_j ... im_N^2 [BOE/C] t ]，其中 [BOE]、[BOC] 分别表示用于相应语言（英语和中文）的开始的分隔符。我们随机掩蔽图像补丁和文本标记。理想情况下，这两项任务应该分开；但我们将它们结合在一起以提高训练效率。

我们没有将掩蔽区域中的标记替换为 [MASK]，而是不对输入进行任何更改，但会根据掩蔽区域构建注意力掩蔽 A。掩蔽区域之外的所有标记都被视为上下文，并且可以由所有其他标记关注。掩蔽区域中的标记只能由掩蔽区域中及其后面的标记处理。具体来说，

图 2 显示了两个掩蔽区域的注意力掩蔽矩阵的示例。

在掩蔽区域中，模型学习预测下一个标记。损失函数可以写成如下：

其中 x_context 表示掩蔽区域之外的标记。

填充。

请注意，在训练期间不会预测每个掩蔽区域中的第一个标记。该功能似乎禁用了 CogLM 的自然语言图像填充或完型填空功能，但这个问题实际上有一个简单的解决方案。
在推理过程中，我们可以将每个掩蔽区域之前的最后一个上下文标记移动到其中，如图 3 所示。虽然这些移动的标记会成为它们之前的掩蔽区域的盲点，但在实践中它们几乎没有负面影响。
为了进一步避免这种微小的影响并充分保持上下文信息，我们单独处理每个掩蔽区域。对于每个区域，我们仅移动该区域之前的最后一个上下文标记，并将所有已知标记保留在掩蔽区域之外。因此，我们无法使用前一个区域缓存的隐状态，从而稍微减慢了多区域填充的速度。

相比于 GPT [22]、GLM [6] 和 MAE [12] 的优先。

(GPT) 相对于 GPT 的主要优点是 CogLM 中考虑了双向上下文的建模，这将有利于许多依赖全局信息的任务，例如，下一节中的超分辨率和图像分类。双向上下文的重要性在 GLUE 上的 BERT [2] 和 GPT [31] 的比较中得到了验证。
(GLM) 相对于 GLM 的主要优点是简单性。为了统一生成和双向理解，GLM需要定义许多新的特殊标记和新型位置嵌入，为每个掩蔽区域插入哨兵（sentinel）并更改输入标记的顺序。它破坏了图像数据中的空间相关性，并排除了使用 2D 局部注意力或卷积的可能性。
(MAE) MAE 是为纯图像数据的自监督学习而设计的，尚未准备好生成。即使没有文本，CogLM 的参数效率也更高，因为 MAE 是一种编码器-解码器结构。编码器和解码器中的相当一部分参数是为了相同的功能而学习的，例如，从输入中提取基本特征。

3.2 预训练

由于我们已经介绍了 CogLM 作为通用预训练框架，因此在本节中，我们将描述预训练 CogLM 的细节和超参数。

标记化。

我们开发了图像、中文、英文（Image, Chinese, English）的统一标记器 icetk。
如 DebertaV2 [13] 所示，大词汇表（128,000 个标记）提供了许多好处。对于文本，我们在 icetk 中提取了 130,000 个标记的双语词汇表，并将它们明确分类为中文、英文、常见或稀有符号，以便我们可以通过采样掩蔽来指定生成的语言。
图像标记器是一个 20,000 个标记的第一阶段 VQ-VAE [29]，很大程度上遵循 CogView [3] 中的标记器。
受到 Esser 等人 [7] 的启发，将感知损失项 [37] 添加到重建损失中，显着提高了重建性能。（详情请参阅附录。）

Transformer。

我们预训练的 CogLM 的骨干是具有三明治层归一化（Sandwich Layer-Norm）的 Transformer [3]。
该模型有 60 亿个参数（48 层、hidden 大小 3072、48 个注意力头），在 FP16 中训练了 300,000 次迭代，批量大小为 4,096。
序列长度为 512，由 400 个图像标记、1 个分隔符和最多 111 个文本标记组成。

掩蔽策略。

我们为每个训练样本随机选择一个采样策略。
对于掩蔽预测策略，SimMIM [34] 的分析显示了掩蔽百分比和 patch 分布的重要性。我们按照他们的结果随机采样 4×4 的标记 patch，直到 75% 的标记位于掩蔽区域中。
对于双语样本，我们在训练过程中随机选择一种语言。

3.3 分层生成

虽然预训练的 CogLM 可以从文本生成图像，但分辨率仅为 20*20 标记（160*160 像素）。短序列是有意为之，以实现快速生成。 CogLM 的多功能性使我们能够将其微调为超分辨率模型。整个分层管道构成了我们的 CogView2 系统。

直接超分辨率。

在这一步中，我们需要一个模型来映射生成的低分辨率图像标记序列 im^0 ∈ [0, 20000)^(20*20) 到更高分辨率的序列 im^1 ∈ [0, 20000)^(60*60)。
我们将预训练的 CogLM 微调为编码器-解码器架构。编码器的输入是生成的图像标记的 20*20 序列，解码器的输入只是 60*60 的 [MASK] 序列。
我们没有按照原始 transformer [30] 添加交叉注意层，而是使解码器中的标记同时关注解码器和编码器中的局部标记。这种跨分辨率局部注意力是通过 4.2 节中介绍的定制 CUDA 内核实现的。
编码器和解码器均使用预训练的 CogLM 进行初始化。
在实践中，我们发现仅微调解码器中注意力层的权重就足够了，这样我们就可以在编码器和解码器之间固定和共享其他参数以减少内存消耗。

尽管直接映射是超分辨率（例如，SRCNN [4]）的传统做法，但很难称得上是生成；它更注重纹理变换。直接映射的损失函数是基于标记或基于像素（MAE）的，这意味着它预测或最大化每个标记 i 的边缘分布

而不是

当我们在生成过程中使用交叉熵损失和多项式采样时，我们得到

因此，我们需要使用另一个模块来精练 im^1。

迭代超分辨率。在这一步中，我们的目标是将初始高分辨率序列 im^1 精练为更好的序列 im^2。精练的工作原理是打破生成标记的独立性，同时保持并行性。因此，我们提出了一种局部并行自回归（local parallel autoregressive，LoPAR）方法。

LoPAR 的动机是分层过程使我们摆脱了全局依赖。只要我们保持 25%（MAE [12] 中的比率）随机标记作为上下文，就足以恢复图像的全局场景。如果重新生成的标记在局部与 25% 保留的标记保持一致，则全局一致性也得到保证。我们掩蔽了 im^1 的 75% 的 token 并假设有一个大小为 σ 的局部窗，

这样局部注意力就足够了，并且可以并行生成来自不同局部窗口的标记。为了进一步提高并行性，我们发现当同时生成直接相邻（垂直或水平）的标记时，通常会发生局部不一致。我们将生成过程对角分解为不同的迭代，如图 4 及下式所示：

其中，

是局部窗口中行和列的索引。

为了实现迭代超分辨率模块，

我们将经过 20,000 次迭代的预训练 CogLM 微调为具有局部注意力的 60*60 标记序列的 BERT 式掩蔽预测模型。
对于每个样本，掩蔽率从 {0.2, 0.4, 0.6, 0.8, 0.9} 采样。
在推理过程中，我们将局部窗口大小设置为 σ = 6，并通过排列未掩蔽的标记并合并第一次和最后一次迭代，将迭代过程从 2σ - 1 次迭代压缩到 6 次迭代。
（通过手动设计的 6*6 矩阵来实现。详细信息包含在我们发布的代码中）。

4. Transformer 的插件改进技术

4.1 分簇采样

在自回归生成中，对标记的预测分布的采样策略至关重要。 Top-k 或 top-p（核心，nucleus）采样 [14] 是最常见的策略，但会遇到不完整截断问题。

图像标记的词汇是通过 VQVAE [29] 学习的，其中一些标记的嵌入非常相似。为了以更细的粒度表示频繁图样（frequent pattern），我们使用了 20,000 个标记的大词汇量，比之前的作品 [26, 3] 大三倍，进一步加剧了这种情况。例如，icetk 中有大约 42 个基本上是 “白色” 的 token，只有在与其他一些 token 连接时才会显示出细微的差异。尽管这些 “白色” 标记的概率之和可能足够大，但其中大多数都可以通过 top-k 采样来过滤。图 5 说明了该问题。

为了解决不完整抽样问题，我们提出分簇采样。我们根据 VQVAE 中的向量，通过 K 均值 [18] 将 20,000 个标记分为 500 个簇。在采样过程中，我们首先根据簇中标记的概率之和使用 top-k 采样对簇进行采样，然后在簇中进行采样。簇中的所有标记被视为一个整体，并将被过滤或保留在一起，从而缓解不完整截断问题。

4.2 局部注意力

局部性是图像数据最重要的属性之一。

局部操作，例如，卷积在 ViTs 之前主导了视觉计算 [5]。甚至 ViT 中的注意力也主要处理局部标记之间的交互 [24]。
我们发现可以使用局部注意力和文本注意力来微调预训练的 CogLM，这通常与预训练的全局注意力权重兼容。
然而，2D 局部注意力无法使用高层框架有效实现，例如，Pytorch [20]。我们开发了一个定制的 CUDA 内核来支持 2D 局部注意力、2D 自回归局部注意力和跨分辨率局部注意力。在 CUDA 内核实现中，我们可以节省一半的矩阵乘法计算量，并且不需要用于自回归注意力的因果注意掩蔽。
在超分辨率模块中，我们使用感受野（receptive field，RF）为 9*9 的局部注意力。图 6 显示了 A100 GPU 上隐藏大小为 64 的单头注意力的基准。相比于在 4,096 序列上的全局注意力，我们的方法的优势在自回归场景中会更加明显（快 40 倍，占用 1% 的内存）。

4.3 加强文本注意力（Upweighting Textual Attention）

大多数文本-图像对在 CogLM 的大量训练数据中都是弱相关的。即使模型完美地拟合了数据，它也应该有相当大的概率生成无关的图像。为了增强相关性，我们利用注意力操作的可解释性。我们将一个常量 c 添加到从任何标记到文本标记的注意力分数中：（为了简单起见，省略了注意力掩蔽）

该技术消耗的时间可以忽略不计，但很大程度上提高了生成图像的文本相关性。实际上，c < 3 不会影响图像的质量。

5. 实验

5.1 数据集

我们的预训练数据集包含大约 3000 万个文本-图像对，大部分与 CogView [3] 的数据集重叠。我们使用一些关键词从 CogView 数据集中过滤了大约 500 万个文本图像对，例如 “抽象” 和 “纹理”，因为它们大多是用于设计的背景图像。这些图像由重复的图样组成，对文本到图像的生成几乎没有贡献。然后，我们用 500 万个标签-图像对补充数据集。大约一半的文本是从英文翻译而来的，并且保留中文和英文文本来训练我们的双语 CogLM。仅使用分辨率至少为 480*480 的图像来训练超分辨率模块。

5.2 机器评估

为了与之前和同期工作进行比较，

我们遵循源自 DALL-E [26] 的最流行基准：在 MS-COCO [17] 上评估的 FID 和 IS。
从验证集中采样 30,000 个标题以评估 FID。由于COCO中的每张图像最多有5个不同的标题，因此我们仔细选择采样的标题来描述不同的图像。我们为每个标题（翻译成中文）生成 16 个样本，并选择标题困惑度（[3] 中的标题得分）最低的最佳样本。
请注意，FID 并不是评估 CogView2 的完美指标，因为：
(1) CogView2 的优点是生成高分辨率图像，但我们需要将图像大小调整回 256*256 以便进行有意义的比较。
(2) 英文标题翻译成中文时出现错误。
(3) 我们的训练数据包含许多单对象图像，这与COCO（上下文中的常见对象）分布中的图像有很大不同。

机器评估的结果如表 1 所示。

我们发现在 MS-COCO 数据集上微调 CogLM 将大大提高 FID。在我们的微调过程中，FID 逐渐减小，24.0（0 次迭代）→ 19.2（2,500 次迭代）→ 17.5（7,500 次迭代）。
然而，我们发现生成的质量（人类评价）恶化了。虽然风格与 COCO 类似，但生成不如非微调版本准确，这也对应于图 7 中人类评估的分数。

5.3 人类评估

作为最具说服力的指标，我们按照 CogView [3] 中的设置进行了大规模的人工评估（详见附录）。

实验包括对一些公开的文本转图像作品之间的 COCO 标题进行了总共 4,600 组比较，包括 DFGAN [28]、LAFITE [39]、CogView [3]、CogView2（包括其在 COCO 上的微调版本）和在 VQVAE 后恢复的地面实况（ground truth）。
请注意，CogView2 中的 VQVAE 比 CogView 中的 VQVAE 好得多，这使得恢复的地面实况具有更强的上限。
结果如图 7 所示。
一个有趣的发现是，经过微调的 CogView2 尽管具有更好的 FID，但性能却比原始模型差。我们猜测该模型可能拟合了 COCO 中复杂场景的风格，但注释者可能更喜欢生成的具有孤立主题的样本。

6. 讨论

自回归还是扩散？

尽管 GPT 在文本生成方面取得了巨大成功，但扩散模型在图像生成方面变得越来越流行。
这里我们从速度方面比较扩散模型和自回归模型，这是第 1 节中讨论的自回归模型的最大缺点。
在相同的架构下，扩散模型需要更多的算力（FLOP），但具有较高的并行度。他们还可以通过手动安排采样步长在质量和时间消耗之间进行权衡。例如，Glide [19] 采样 250 个扩散步骤进行评估，对 27 个步骤进行交互式采样，以将延迟减少到 15 秒。
自回归模型必须逐标记生成图像，但我们的 LoPAR 可以以高并行度对图像进行上采样，因此（可能）我们可以通过引入更多分层结构来比扩散模型更快地设计模型，从而降低时间成本。

DALL-E2 和 CogView2 之间的比较。

DALL-E2 [27] 是最近发布的一项同期工作，用于 1024*1024 分辨率的文本到图像生成。尽管其概率模型和架构与 CogView2 有很大不同，但它们具有相同的精神——分层生成。
尽管 CogView-2 的训练数据仅占 DALL-E-2 使用的总数据的 5% 左右，CogView2 能够根据 DALL-E2 的有限演示合成类似的场景，例如 “狮子老师”（图 1）vs. “熊猫科学家” (DALL-E2)。
DALL-E2 与 CogView2 相比，其主要区别在于第三级超分辨率和 “零” 级（zeroth-level）图像先验生成。由于训练第三级超分辨率非常消耗资源并且需要稍微工程化，因此我们将其留待将来的工作。

7. 结论

文本到图像领域的突破是由自回归模型实现的。然而，生成速度慢和复杂性高阻碍了研究人员在这个方向上提高质量的尝试。在本文中，我们提出了一种基于分层 transformer 的方法来帮助自回归模型弥补这些缺点，并弥合文本到图像预训练和最近的视觉表示学习方法之间的差距。

更广泛的影响。文本到图像生成技术的进步，特别是文本引导的图像编辑，将减轻艺术家和设计师的创造性工作，同时也会带来错误信息的风险，从而对网络照片的可靠性造成永久性损害。然而，可以训练分类器根据纹理特征区分真实图像和 CogView2 生成的图像。

参考

Ding M, Zheng W, Hong W, et al. Cogview2: Faster and better text-to-image generation via hierarchical transformers[J]. Advances in Neural Information Processing Systems, 2022, 35: 16890-16902.

附录

A. icetk 标记器的详细信息

在这里，我们介绍有关统一的标记器 icetk 的更多详细信息。

A.1 文本标记器

文本分词器基于 sentencepiece（http://github.com/google/sentencepiece）（一元算法 [16]）在英文和中文混合语料库上进行训练。该语料库由 25GB 纯文本组成——一半英文，一半中文。我们根据 unicode 编码仔细选择，将提取的 token 分为四类：普通、英文、中文和特殊，并为其分配连续的 ID 号。

icetk 的字典大小为 150,000。

前 20,000 个标记是图像标记（下面讨论）。常用 token 有 100 个，包括标点符号、数字和自定义 token，例如：。
第 20,100 至第 83,822 标记为英文标记，第 83,823 至第 145,653 标记为中文标记。
其余的是特殊标记，例如 α。
我们可以通过采样掩蔽禁用部分标记的生成，例如，仅生成用于图像标题的英文标记。

A.2 图像标记器

图像标记器是多压缩率（multi-compression-rate） VQVAE。（VQVAE 一词最初 [29] 指的是离散潜变量压缩（第一阶段）和先验自回归建模（第二阶段）的整个过程。在本文中，为简单起见，我们仅将术语 VQVAE 称为第一阶段）。

CogView2 的图像标记器与 CogView 的图像标记器之间的主要区别主要在于感知损失和多压缩率设计。
感知损失 [37] 被提出来衡量人类感知与给定图像的纹理的匹配程度。 VQGAN [7] 将其用作 GAN 训练的损失项之一。我们惊讶地发现，感知损失可能是 VQGAN 相对于 VQVAE 纹理改进的大部分原因。
然而，VQGAN 虽然被证明可以实现更好的 FID，但有时会在图像的重要元素上产生不良情况，例如，人脸。图 8 显示了方法之间比较的示例。
因此，我们最终决定使用 L1、MS-SSIM [32] 和感知损失来训练 VQVAE 作为图像标记器，如下所示，

其中 ^x 是 VQVAE 之后恢复的输出。

多压缩率设计意味着我们的图像标记器可以使用不同的压缩率来压缩图像，例如， 4^2 倍，8^2 倍或 16^2 倍。但我们在 CogView2 中的所有实验都只使用 8^2 倍压缩率，即 160^2 → 20^2 和480^2 → 60^2。我们通过使用共享字典和低层参数训练三个图像标记器来实现它，如图 9 所示。该架构基本上遵循已发布的带有自注意力层的 VQGAN [7]。我们在 ImageNet 上训练模型以达到收敛。

B. 高分辨率文本引导填充

尽管 CogLM 本质上支持文本引导填充，如图 3 所示，但我们发现对于小块，模型往往只考虑上下文的连贯性而忽略文本，因为 CogLM 的粒度仅为 20*20。我们的解决方案是将区域放大到合适的大小，然后运行填充和超分辨率。具体来说，该过程可以分为以下步骤：

计算给定掩蔽区域的方形边界框。
将边界框的大小扩大 1.4 倍（作为默认超参数）。
如果边界框已经覆盖了整个图像，则通过 CogLM 和超分辨率运行正常补全；否则将边界框区域中的补丁放大到 480*480，仅针对该区域通过 CogLM 和超分辨率运行正常补全，并将结果缩回原始大小。
将掩蔽区域替换为生成的结果。
对结果图像进行标记并立即对其进行去标记，以保持掩蔽区域边缘的一致性。

我们在图 10 中展示了一些文本引导填充的示例。这些示例显示了 CogView2 在肖像编辑等应用中的潜力。

S. 总结

S.1 主要贡献

本文提出文本到图像系统 CogView2，基于分层 Transformer 和局部并行自回归（LoPAR）生成来解决 Transformer 文本到图像生成慢且复杂的问题。（总结了自回归模型的缺点并提出相应的解决方法）

使用自监督任务，跨模态通用语言模型 (cross-modal general language model，CogLM)，来预训练具有三明治层归一化的 6B 参数的 Transformer ，并对其微调以实现快速超分辨率。

开发了图像、中文、英文（Image, Chinese, English）的统一标记器 icetk。

Transformer 的插件改进技术。

使用分簇采样解决不完整截断问题。
2D 局部注意力无法使用高层框架（例如，Pytorch）有效实现，本文开发了一个定制的 CUDA 内核来支持 2D 局部注意力、2D 自回归局部注意力和跨分辨率局部注意力。
使用加强文本注意力来避免生成与文本无关的图像。该技术消耗的时间可以忽略不计，但很大程度上提高了生成图像的文本相关性。

S.2 方法

跨模态通用语言模型（CogLM）。CogLM 中的关键步骤是根据不同的策略对掩蔽区域进行采样。在实践中，使用以下两种策略：

文本到图像 GPT：掩蔽所有图像标记。
掩蔽预测和图像标题的组合：随机掩蔽图像补丁和文本标记。

CogLM 的架构以及两个掩蔽区域的注意力掩蔽矩阵如图 2 所示。

掩蔽区域之外的所有标记都被视为上下文，并且可以由所有其他标记关注。
掩蔽区域中的标记只能由掩蔽区域中及其后面的标记处理

分层生成。分层生成分为三个步骤：

使用预训练的 CogLM 生成一批低分辨率图像，并根据 CogLM 图像标题的困惑度过滤掉坏样本。
生成的图像通过从预训练的 CogLM 微调的直接超分辨率模块映射为 60*60-token 图像。使用定制的 CUDA 内核实现的局部注意力来减少训练代价。此步骤生成的高分辨率图像通常纹理不一致且缺乏细节。
这些高分辨率图像通过另一个迭代超分辨率模块进行精练，该模块是根据预训练的 CogLM 进行微调的。大多数标记以局部并行自回归（local parallel autoregressive，LoPAR）方式重新掩蔽和重新生成，这比原始自回归生成要快得多。精练流程如图 4 所示。

LoPAR 的动机是通过分层摆脱全局依赖。只要保持 25% 随机标记作为上下文，就足以恢复图像的全局场景。如果重新生成的标记在局部与 25% 保留的标记保持一致，则全局一致性也得到保证。

S.3 自回归模型的缺点及解决措施

对于由逐标记生成导致的生成速度慢，可以通过局部并行自回归解决。

对于由注意力机制的高时空复杂度导致的昂贵的高分辨率训练，可以通过分层设计和局部注意力来减少训练代价。

对于由按光栅扫描顺序生成标记导致的单向性，掩蔽补丁预测任务训练 CogLM 处理双向上下文，使其易于适应双向任务，例如，直接和迭代超分辨率。

你可能感兴趣的:(论文笔记,深度学习,人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号