【论文精读】Latent Diffusion

摘要

Diffusion models（DMs）被证明在复杂自然场景的高分辨率图像合成能力优于以往的GAN或autoregressive （AR）transformer。作为基于似然的模型，其没有GAN的模式崩溃和训练不稳定问题，通过参数共享，其可以模拟自然图像的高度复杂分布；另外也不需要AR类模型庞大的参数量，但DM在像素级的训练推理仍然需要大量的计算量，故本文的重点在于在不损害DM性能的情况下减少计算量，以优化算法效率。

基于似然估计的模型的学习大致分为两个阶段：首先为感知压缩阶段，该阶段可以去除图像的高频细节，也能学习到少量的语义变化；随后生成模型会学习数据的语义和概念组成（语义压缩）。故本文目标是找到一个在感知上与数据空间等效但计算量更小的空间，并在其中训练用于高分辨率图像合成的DM。

故本文提出的方法在训练过程会分成两个不同的阶段：首先会训练一个自编码器，该编码器会提供了一个在感知上等效于数据空间的低维表示空间，随后在该潜空间中训练DM。该模型称为Latent Diffusion Models（LDM）。

上图显示了提出的模型在不同阶段的浅表示失真率和单维度语义信息量的权衡图，在感知压缩阶段，自编码器编码的浅表示具有高度的信息密度，同时保持了较低的图像失真率，保留了图像的整体结构。而在生成阶段，LDM对图像信息压缩率较小，故可以建模图像细节的能力，但同时失真率较高，会损失图像的整体结构信息，但这部分信息刚好可以由感知编码器弥补。故整体上，本文方法具备提取重建图像整体结构与细节信息的能力。

这种方法的优点在于，只需要训练一次通用自编码阶段，随后就可以将其重复用于多个DM任务，例如各种图生图和文生图任务。为了适配这些任务，本文设计了一个架构，将transformer连接到DM的UNet骨干网络，以实现任意类型的基于token的适配机制。整体改进有：

编码器会对数据进行压缩，且因为DM本身可以为数据提供极好的归纳偏差，故在该压缩空间中，DM仍然可以实现可靠和详细的数据重建（如上图，自编码器计算的潜空间只需进行4倍下采样就可以实现超越以往生成模型的性能），且可以有效地应用于百万像素图像的高分辨率合成
在多个任务（无条件图像合成、图像修复、超分辨率）和数据集上实现了最先进的性能，且显著降低了训练和推理的计算量
因为本文方法是分阶段训练的，故与以往同时训练自编码器和似然估计的方法相比，所提出方法不需要自编码器重建和似然估计生成能力的加权平衡。这确保了编码器的重建数据的可靠性，且降低了对潜空间的正则化要求
设计了一种基于交叉注意力的通用条件适配机制，实现了多模态训练。故本方法可以用来训练类别条件模型（Class-Conditional）、文本到图像和布局到图像的模型

框架

DM允许通过对相应的损失项进行欠采样来忽略感知上不相关的图像细节，但其仍然需要在像素空间进行函数评估，计算复杂度过高。为了降低DM高分辨率图像生成的计算复杂度，本文模型采用两阶段训练，第一阶段利用自编码学习一个在感知上等效于图像空间的潜空间，得到的浅表示为压缩后的图像高密度信息，随后在该潜空间中采用DM进行图像生成，该方法的优点如下：

通过避开高维图像空间，使DM计算效率提高
利用了从UNet架构中继承的DM的归纳偏差，保证其对图像空间结构信息的特征提取能力
获得的通用的自编码器压缩模型，其潜空间可用于训练多个生成模型，包括各种下游应用，如采用CLIP的文本生成或图像生成

Perceptual Image Compression

感知压缩模型为由感知损失和基于patch的对抗损失组合训练的自编码器，这确保了重建能通过局部真实性被限制在图像流形上，避免了仅仅依靠像素空间损失（ $L_1$ 或 $L_2$ 损失）而导致的模糊性。

具体，给定图像 $x\in \Reals^{H \times W \times 3}$ ，编码器 $E$ 会将 $x$ 编码为潜表示 $z = E (x)$ ，解码器 $D$ 再从潜表示中重建图像 $\hat x=D(z)=D(E(x))$ ，其中 $z∈\R^{h×w×c}$ 。编码器通过因子 $f = H / h = W / w$ 对图像进行下采样，本文研究了不同的下采样因子 $f=2^m$ ， $\N$ 。

为了避免高方差潜空间，本文实验了两种不同类型的正则化方法。

KL-reg：对学习到的潜表示添加轻微的KL惩罚，以使其符合标准正态分布，类似于VAE
VQ-reg：在解码器内使用向量量化（vector quantization）层

该模型类似于VQGAN，但量化层被解码器吸收。潜表示 $z = E (x)$ 会进一步由后续的DM处理。

Latent Diffusion Models

Diffusion Models

DM是通过对正态分布变量逐步去噪来学习数据分布 $p (x)$ 的概率模型，相当于学习长度为 $T$ 的固定马尔可夫链的逆过程。可以解释为一个等权重的去噪自编码器序列 $\epsilon_\theta(x_t,t);t=1\dots T$ ，其被训练以预测其输入 $x_t$ 的去噪变体，其中 $x_t$ 为输入 $x$ 加噪声的版本。相应的目标可以简化为：
$L_{DM}=\mathbb{E}_{x,\epsilon\sim N(0,1),t}[||\epsilon-\epsilon_\theta(x_t,t)||^2_2]$

其中 $t$ 均匀采样自 $\{1,\dots ,T\}$ 。

Generative Modeling of Latent Representations

通过训练由 $E$ 和 $D$ 组成的感知压缩模型，可以获得一个有效的低维潜空间，其中图像的高频信号、难以察觉的细节被抽象掉了。与高维像素空间相比，这个空间更适合基于似然的生成模型，因为DM现在可以专注于数据中更重要的语义位，且在这个低维空间的计算效率比在像素空间中高得多。

利用由2D卷积层构建的UNet，重新加权的bound会进一步将目标集中在感知上最相关的比特上，故DM可以提供特定于图像的归纳偏差。结合浅表示与DM的学习目标，则有：
$L_{LDM}:=\mathbb{E}_{E(x),\epsilon\sim N(0,1),t}[||\epsilon-\epsilon_\theta(z_t,t)||^2_2]$

其中LDM的神经主干 $\epsilon_\theta(\cdot,t)$ 为一个时间条件UNet， $z_t=E(x_t)$ ，概率模型 $p (z)$ 的样本通过 $D$ 解码到图像空间。

Conditioning Mechanisms

DM能够建模形式为 $p (z ∣ y)$ 的条件分布，结合上式则可以用条件去噪自编码器 $\epsilon_\theta(z_t,t,y)$ 实现多模态训练，其中输入 $y$ 即为prompt隐编码，可以为文本，语义映射或图像等。

本文通过使用交叉注意机制增强UNet主干的方式，将DM转变为更灵活的条件图像生成器。为了编码各种模态（如语言prompt）的输入 $y$ ，引入一个特定领域的编码器 $τ_θ$ 将 $y$ 投影为中间表示 $τ_θ(y)∈R^{M×dτ}$ ，然后通过交叉注意将其映射到UNet的中间层，公式为：
$Attention(Q,K,V)=softmax(\frac {QK^T} {\sqrt d})\cdot V \\ Q=W^{(i)}_Q\cdot \varphi_i(z_t),K=W^{(i)}_K\cdot \tau_\theta(y),V=W^{(i)}_V\cdot \tau_\theta(y)$

其中 $\varphi_i(z_t)\in \R^{N \times d^i_e}$ 为实现了 $\epsilon_\theta$ 的UNet的中间层（第 $i$ 层）表示， $W^{(i)}_V \in \R^{d×d^i_{\epsilon}}$ ， $W^{(i)}_Q ,W^{(i)}_K \in \R^{d×d_τ}$ 为可学习的投影矩阵。模型的整体计算流程如下图。

基于条件生成，学习目标进一步改进为条件LDM：
$L_{LDM}:=\mathbb{E}_{E(x),y,\epsilon\sim N(0,1),t}[||\epsilon-\epsilon_\theta(z_t,t,\tau_\theta(y))||^2_2]$

其中 $τ_θ$ 和 $\epsilon_\theta$ 通过 $L_{LDM}$ 联合优化， $τ_θ$ 可以由特定领域prompt的专家模型来参数化（如CLIP）。

实验

LDM为各种图像模态的基于diffusion的图像合成提供了灵活和易计算的方法，并采用下列实验验证。

On Perceptual Compression Tradeoffs

本节分析具有不同下采样因子 $f∈ \{1,2,4,8,16,32 \}$ （简称为LDM-f，其中LDM-1对应于基于像素的dm）的LDM的行为。为了保证对比公平性，所有实验在单个NVIDIA A100上进行，并以相同的步数和相同的参数训练所有模型。

上图显示了在ImageNet数据集上，2M步的总训练阶段中类别条件LDM的生成的样本质量与训练进度的关系。观察到，较小的下采样因子LDM-{1,2}会导致模型训练进度缓慢，而过大的下采样因子LDM-{32}会导致训练阶段中生成图像的保真度停滞不前。分析得知，较小的下采样因子会导致大量的高频信息传入DM，而过高的下采样因子会导致大量的图像信息损失，从而限制了可实现的质量。在经过2M训练步骤后，基于像素的diffusion（LDM-1）和LDM-8之间的FID差距显著，证明LDM-{4-16}在计算效率和感知度之间可以取得很好的平衡。

上图比较了在CelebA-HQ和ImageNet上不同下采样因子f下训练的模型，模型使用DDIM采样器在不同降噪步数 ${10,20,50,100,200\}$ 下的采样速度，并将其与FID分数进行了对比。观察到，LDM-{4-8}的表现优于具有不合适的下采样因子的模型，特别是与基于像素的LDM-1相比，不仅实现了更低的FID分数，同时也提高了样本吞吐量。综上所述，LDM-4和LDM-8提供了实现高质量生成结果的最佳条件。

Image Generation with Latent Diffusion

本节在CelebA-HQ、FFHQ、LSUN-Churches和-Bedrooms上分别使用 $256^2$ 分辨率图像训练了多个无条件LDM，并使用FID和Precision-and-Recall评估生成的样本质量及其对数据流形的覆盖程度。

上表为实验结果。在CelebA-HQ上，LDM实现了最先进的FID为5.11，优于以前的基于似然的模型和GAN，还超过了单一阶段结构的LSGM。除了LSUN-Bedroom数据集，LDM再所有数据集上的表现都优于以往基于diffusion的方法。对于表现相近的ADM，LDM只使用了其一半的参数，所需的训练资源减少了4倍。此外，LDM在准确率和召回率方面也优于基于GAN的方法，从而证实了其基于模式覆盖的似然训练目标比对抗性方法的优势。

上图显示了在每个数据集上训练的LDM的定性结果。

Conditional Latent Diffusion

Transformer Encoders for LDMs

通过在LDM中引入基于交叉注意力的条件，为DM在以前未探索的各种条件模式打开了大门。

为了实验文本到图像的图像建模，本节在LAION-400M上训练了一个1.45B参数的KL正则化LDM，该LDM以语言prompt为条件，并使用BERT-tokenizer及transformer实现的 $τ_θ$ 来计算通过多头交叉注意映射到UNet的隐编码。这种同时学习语言表征和视觉生成的组合产生了一个强大的多模态模型，其可以很好地概括复杂的、用户定义的文本prompt来生成图像，如上图。

为了进行定量分析，本节遵循先前的工作并在MS-COCO验证集上评估了模型文生图的性能。结果如上表，观察到，LDM改进了基于AR和GAN的模型。另外注意到，应用Classifier-Free Guidance的diffusion极大地提高了生成样本质量，故LDM-KL-8-G与以往最先进的AR和diffusion模型在文本到图像合成方面的性能不相上下，同时大大减少了参数量。

另外还在OpenImages上训练了基于语义布局（semantic layouts）的图像合成模型，并在COCO上进行了微调，结果如上图。

另外评估了在ImageNet中训练的 $f∈\{ 4,8 \}$ 的最佳类别条件模型，结果如上表。观察到，LDM-4优于目前最先进的diffusion模型ADM，同时显著减少了计算量和参数量。

Convolutional Sampling Beyond $256^2$

通过将空间对齐的条件信息和 $\epsilon_\theta$ 的输入 $z_t$ 相连接，ldm可以作为高效的通用图像到图像的生成模型。本节用这种配置来训练语义合成、超分辨率和图像修复模型。

对于语义合成训练配置，使用与语义图配对的景观图，并将语义图的下采样版本与LDM-4模型计算的景观图的潜表示连接起来，然后在输入分辨率为 $256^2$ 的情况下进行训练，当以卷积方式评估时可以生成高达百万像素的图像，如上图。利用这种方法，还可以应用超分辨率LDM变体和绘画LDM变体来生成 $512^2$ 和 $1024^2$ 之间的大图像。对于该应用，信噪比（由潜空间的尺度诱导）会显著影响生成结果。

上图为上述配置下生成的景观图。

结合无分类指导，使用文本条件的LDM-KL-8-G可以直接合成 $256^2$ 分辨率的图像，如上图。

Super-Resolution with Latent Diffusion

LDMs可以通过直接调节低分辨率的图像来有效地训练超分辨率任务。超分辨率实验遵循SR3，采用双三次插值退化将图像进行4倍下采样得到LR图，并按照SR3的数据处理管道在ImageNet上进行训练。采用在OpenImages（VQ-reg）上预训练的 ${f=4\}$ 自编码器得到LR的浅表示，并连接低分辨率条件 $y$ 得到UNet的输入向量。

上图/表为实验的定性和定量结果。观察到，LDM-SR在FID指标下优于SR3，而SR3具有更好的IS，一个简单的Image Regression模型获得了最高的PSNR（Peak Signal-to-Noise Ratio）和SSIM（Structural SIMilarity）分数，但是这些指标与人类的感知并不一致。

故还进行了一项用户研究，比较了pixel-baseline与LDM-SR，模型配置遵循SR3。实验会向人类受试者展示LR图及对应的两幅SR图像，并询问其偏好，上表的结果证实了LDM-SR的良好性能。

由于双三次退化过程不能很好地泛化到不遵循此预处理的图像，故本文还通过使用更多样化的退化方法训练了一个通用模型LDM-BSR。

Inpainting with Latent Diffusion

图像修复是用新内容填充图像的mask区域的任务，因为图像的某些部分要么被破坏了，要么是为了替换图像中现有的但不需要的内容。本文评估了此任务上有条件LDM图像生成的通用方法与以往最先进的方法的性能，评估遵循LaMa协议，其引入了一种依赖于快速傅里叶卷积的架构。

实验分析了第一阶段编码器不同设计选择的效果。具体，比较了LDM-1及采用了KL或VQ正则化的LDM-4，以及在第一阶段中没有任何注意力的VQ-LDM-4的修复性能，后者在高分辨率下减少了用于解码的GPU内存使用。为了可比性，固定了所有模型的参数数量。

上表显示了 $256^2$ 和 $512^2$ 分辨率下不同配置模型的训练和采样吞吐量，每个epoch的总训练时间以及在训练6个epoch后的FID评分。观察到，LDM-4的速度比基于像素LDM-1至少提高了2.7倍，同时FID分数提高了至少1.6倍。

上表为LDM与其他修复方法的结果。观察到，有注意力的LDM-4比LaMa取得更高的FID，未掩码图像修复任务中LDM-4的LPIPS略高于LaMa，与LDM产生的结果相比，LaMa的结果倾向于恢复更平均的图像。

基于上述结果，实验又在第一阶段使用VQ正则化的配置下训练了一个更大的LDM，该DM的UNet在其三个特征层上使用了注意力层，并使用BigGAN的残差块对潜表示进行上下采样，该LDM具有387M参数。对该模型训练后，在 $256^2$ 和 $512^2$ 分辨率下生成的样本质量相比原始LDM显著提高，初步认为这是由额外的注意力模块导致的。此外，对 $512^2$ 分辨率的模型进行半个epoch的微调，可以使模型适应新的特征统计，并在图像修复上取得最先进的FID（big, w/o attn）。

上图为LDM-4（big, w/o attn）图像修复的定性结果。

Limitations & Societal Impact

Limitations

虽然与基于像素的方法相比，ldm显着减少了计算需求，但其顺序采样过程仍然比GAN慢。此外，当需要高精度的生成图像时，ldm的仍旧存在问题，下采样的自编码器的重建能力会成为细粒度精度生成的瓶颈。

Societal Impact

图像生成模型是一把双刃剑：一方面，其可以启发各种创造性的应用程序，另一方面，这也意味着深度造假图像的创建和传播变得更加容易。

生成式模型的生成图像中可能会暴漏其训练数据，而当训练数据包含敏感或个人信息且未经明确同意的情况下，会导致各种社会问题。

最后，深度学习往往会重现或加强数据存在的偏差，虽然DM比基于GAN的方法能更好地覆盖数据分布，但LDM的两阶段方法结合了对抗性训练和基于可能性的目标，在多大程度上误导了数据仍然是一个重要的研究问题。

Appendix

Detailed Information on Denoising Diffusion Models

DM可以用信噪比 $SNR(t)=\frac {\alpha^2_t} {\sigma^2_t}$ 组成的序列 $(\alpha_t)^T_{t=1}$ 和 $(\sigma_t)^T_{t=1}$ 来指定，故从数据样本 $x_0$ 开始，定义一个前向diffusion过程 $q$ ：
$q(x_t|x_0)=N(x_t|\alpha_tx_0,\sigma^2_tI)$

指定 $s < t s 时，有马尔可夫结构： q ( x t ∣ x s ) = N ( x t ∣ α t ∣ s x s , σ t ∣ s 2 I ) α t ∣ s = α t α s σ t ∣ s 2 = σ t 2 − α t ∣ s 2 σ s 2 q(x_t|x_s)=N(x_t|\alpha_{t|s}x_s,\sigma^2_{t|s}I) \\ \alpha_{t|s}=\frac {\alpha_t} {\alpha_s} \\ \sigma^2_{t|s}=\sigma^2_t-\alpha^2_{t|s}\sigma^2_s$

去噪DM本质上是生成模型 $p(x_0)$ ，其类似逆向马尔科夫过程，即可定义为：
$p(x_0)=\int_zp(x_T)\prod^T_{t=1}p(x_{t-1}|x_t)$

与该模型相关的证据下界（ELBO）在离散时间步长上可分解为：
$-\log p(x_0)\le \mathbb{KL}(q(x_T|x_0)|p(x_T))+\sum^T_{t=1} \mathbb{E}_{q(x_t|x_0)}\mathbb{KL}(q(x_{t-1}|x_t,x_0)|p(x_{t-1}|x_t))$

先验 $p(x_T)$ 通常被定义为标准的正态分布，故ELBO的第一项只依赖于最终的信噪比 $SNR (T)$ 。此时目标为最小化其余项，故采用变分推断使参数化的 $q(x_{t−1}|x_t,x_0)$ 接近 $p(x_{t−1}|x_t)$ 。其中，未知项 $x_0$ 由基于当前步骤 $x_t$ 的估计值 $x_θ(x_t,t)$ 替代，则有：
$p(x_{t-1}|x_t):=q(x_{t-1}|x_t,x_{\theta}(x_t,t)) =N(x_{t-1}|\mu_{\theta}(x_t,t),\sigma^2_{t|t-1} \frac {\sigma^2_{t-1}} {\sigma^2_t}I) \\ \sigma^2_{t-1|t} = \sigma^2_{t|t-1} \frac {\sigma^2_{t-1}} {\sigma^2_t}$

其中均值为：
$\mu_{\theta}(x_t,t)=\frac {\alpha_{t|t-1}\sigma^2_{t-1}} {\sigma^2_t}x_t+ \frac {\alpha_{t-1}\sigma^2_{t|t-1}} {\sigma^2_t}x_{\theta}(x_t,t) \\ =\frac {\alpha_{t|t-1}} {\sigma^2_{t|t-1}}x_t+ \frac {\alpha_{t-1}} {\sigma^2_{t-1}}x_{\theta}(x_t,t)$

则ELBO的总和简化为：
$\sum^T_{t=1} \mathbb{E}_{q(x_t|x_0)}\mathbb{KL}(q(x_{t-1}|x_t,x_0)|p(x_{t-1})) \\ =\sum^T_{t=1}\mathbb{E}_{N(\epsilon|0,I)} \frac 1 2(SNR(t-1)-SNR(t))||x_0-x_\theta(\alpha_tx_0+\sigma_t\epsilon,t)||^2$

使用重参化有：
$\epsilon_{\theta}(x_t,t)=(x_t-\alpha_tx_{\theta}(x_t,t))/\sigma_t$

则可将重建目标表达为一个去噪目标为：
$||x_0-x_{\theta}(\alpha_tx_0+\sigma_t\epsilon,t)||^2=\frac {\sigma^2_t} {\alpha^2_t}||\epsilon-\epsilon_{\theta}(\alpha_tx_0+\sigma_t\epsilon,t)||^2$

最终的DM优化目标为：
$L_{DM}=\mathbb{E}_{x,\epsilon\sim N(0,1),t}[||\epsilon-\epsilon_\theta(x_t,t)||^2_2]$

Image Guiding Mechanisms

DM的一个特点是，无条件模型可以在测试时被设置条件。故可以采用一个分类器 $\log p_{\Phi}(y|z_t)$ 来指导在ImageNet数据集上训练的无条件和有条件DM，该分类器在diffusion过程的每个 $x_t$ 上训练。故对具有固定方差的 $\epsilon$ ，可以给定分类条件指导算法：
$\hat\epsilon\gets\epsilon_{\theta}(z_t,t)+\sqrt {1-\alpha^2_t}\nabla_{z_t} \log p_{\Phi}(y|z_t)$

可以解释为用条件分布 $\log p_{\Phi}(y|z_t)$ 修正 $\epsilon_{\theta}$ 。

也可以将引导分布 $p_{\Phi}(y|T(D(z_0(z_t))))$ 解释为一个通用的图像到图像任务，给定一个目标图像 $y$ ，设 $T$ 为任意的图像到图像的任务所采用的微调变换，如identity、下采样等。若给定一个固定方差为 $\sigma^2=1$ 的高斯导数，则：
$\log p_{\Phi}(y|z_t)=-\frac 1 2||y-T(D(z_0(z_t)))||^2_2$

可成为一个 $L_2$ 回归目标。

上图为这种机制下训练的模型的生成示例。

Additional Results

Choosing the Signal-to-Noise Ratio for High-Resolution Synthesis

潜空间方差（ $Var(z)/σ^2_t$ ）产生的信噪比会显著影响卷积采样的结果。例如，当直接在KL正则化模型的潜空间中训练LDM时，会产生高信噪比，这样模型在反向去噪过程的早期就会分配到大量的图像语义细节；当按照潜空间的分量标准偏差重新缩放潜空间时，信噪比会降低。

上图为不同正则化潜空间的景观模型生成结果，因为VQ正则化空间的方差接近于1，因此其潜向量不必重新缩放。

Full List of all First Stage Models

上表提供了在OpenImages数据集上训练的各种自编码器的详细信息。

Layout-to-Image Synthesis

本节提供基于语义布局（semantic layouts）的图像合成模型额外的定量评估结果，实验在COCO和OpenImages数据集上训练一个模型，随后在COCO上进行了额外的微调。

上表显示了结果。观察到，LDM-4模型达到了最近在布局到图像合成方面最先进的性能。

上图展示了在COCO上微调的模型生成的其他样本。

Class-Conditional Image Synthesis on ImageNet

上表包含了用FID和Inception评分（IS）测量的类别条件LDM的结果。其中，LDM-8的参数和计算量相比其他模型明显更少，同时实现了非常有竞争力的性能。与之前的工作类似，通过在每个噪声级别上训练一个分类器并对LDM进行指导来进一步提高性能，与基于像素的方法不同，该分类器在潜空间中训练的成本非常低。

上两图为其余定性结果，显示了ImageNet数据集上训练的LDM-4生成的不同类别的图像。

Sample Quality vs. V100 Days

上表显示了在不同训练步骤下，LDM的FID和IS分数分布情况。

Super-Resolution

为了使超分辨率任务下的LDM和DM在像素空间中具有更好的可比性，本实验将经过相同step训练的DM与LDM进行了比较，两者具有相同的参数量。结果如上图最后两行，表明了LDM实现了更好的性能，同时具有更快的生成速度。

上图为定性比较结果，显示了来自LDM和基于像素空间的DM的随机生成样本。

LDM-BSR: General Purpose SR Model via Diverse Image Degradation

为了评估LDM-SR的泛化性，将其应用于来自ImageNet训练的类别条件LDM模型的合成样本和从互联网抓取的图像。观察到，只使用中的双三次下采样条件训练的LDM-SR，不能很好地推广到没有遵循这种预处理的图像。因此，为了获得泛化的真实世界图像的超分辨率模型，采用经过调整的BSR退化管道取代了LDM-SR中的双三次下采样操作。BSR退化过程会将JPEG压缩噪声、相机传感器噪声、不同的图像下采样插值、高斯模糊核和高斯噪声以随机顺序应用于图像的退化流水线。

上图直接比较LDM-SR和LDM-BSR。观察到，后者产生的图像比LDM-SR清晰得多，其更适合于现实世界的应用。

上图为LDM-BSR的进一步结果。

Implementation Details and Hyperparameters

Hyperparameters

上列表提供了本文所有训练过的LDM模型的超参数的概述。

Implementation Details

Implementations of $τ_θ$ for conditional LDMs

对于文本到图像和布局到图像合成的LDM模型，对应的条件模型 $τ_θ$ 为一个无掩码transformer，其会将tokenized的输入 $y$ 转换为输出 $ζ:=τ_θ(y)$ ，其中 $ζ∈\R^{M×d_τ}$ 。其中，transformer由N个transformer块组成，每个transformer块由全局自注意力层、层归一化和mlp组成，具体如下：
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ\gets TokEmb(y)+PosEmb(y)$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ for \ i=1,\dots,N: \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ_1\gets LayerNorm(ζ) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ_2\gets MultiHeadSelfAttention(ζ_1)+ζ \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ_3\gets LayerNorm(ζ_2) \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ\gets MLP(ζ_3)+ζ_2 \\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ ζ\gets LayerNorm(ζ)$

条件 $ζ$ 会通过交叉注意机制映射到UNet中，映射模块定义为“ablated UNet”。

“ablated UNet”的详细配置如上表。

对于文本到图像模型，本文采样一个公开可用的tokenizer。布局到图像模型离散化了边界框的空间位置，每个框都会编码为一个 $(l, b, c)$ 元组，其中 $l$ 表示左上角， $b$ 表示右下角， $c$ 为类别信息。上述两个任务中，UNet的超参数如上表。

另外，本文提供的类别条件模型也通过交叉注意力实现，其中 $τ_θ$ 是一个维度为512的可学习嵌入层，其会将类 $y$ 映射到 $ζ∈\R^{1×512}$ 。

Inpainting

本文的图像绘画实验使用了LaMa的部分代码来生成mask区域，并使用了Places中的2k个验证样本和的30k个测试样本的固定集合。训练期间使用大小为 $256 \times 256$ 的random crops图像，评估期间使用大小为为 $512 \times 512$ 的random crops图像，并遵循LaMa的训练和测试方案。

上图为LDM-4 w/attn的附加定性结果。

上图为LDM-4 w/o attn、big,w/ft的附加定性结果。

Computational Requirements

上表提供了对LDM使用的计算资源的更详细的分析，并将在CelebA-HQ、FFHQ、LSUN和ImageNet数据集上的最佳LDM模型与以往最先进模型进行了比较。观察到LDM在显著减少所需的计算资源的情况下，性能接近于StyleGAN2和ADM等最先进方法。

Details on Autoencoder Models

本文采用对抗性（adversarial）方式训练自编码器模型，通过优化一个基于patch的判别器 $D_{\psi}$ ，来区分原始图像和重建（reconstructions） $D (E (x))$ 。为了避免潜空间的任意缩放，引入了正则化损失项，使潜表示 $z$ 服从零中心，小方差。

本文研究了两种不同的正则化（regularization）方法：

标准变分自编码器中采用的 $q_E(z|x)=N(z;E_μ,E_{\sigma^2})$ 和标准正态分布 $N (z; 0, 1)$ 之间的低权重KL散度
以及通过一个可学习的codebook $∣ Z ∣$ ，采用矢量量化层正则化潜空间

为了获得高保真重建，两种情况都使用非常小的正则化，即要么将KL项按因子 $10^{-6}$ 加权，要么选择一个高维度codebook $∣ Z ∣$ 。自编码模型 $(E, D)$ 的完整训练目标如下：
$L_{Autoencoder}=\min_{ E,D} \ \max_{\psi}(L_{rec}(x,D( E(x)))-L_{adv}(D( E(x)))+\log D_{\psi}(x)+L_{reg}(x;E,D))$

其中 $L_{rec}$ 为重建损失， $L_{adv}$ 为对抗性损失， $\log D_{\psi}(x)$ 为判别器损失， $L_{reg}$ 为正则化损失。

DM Training in Latent Space

对于在潜空间上学习训练的DM，对不同的潜空间正则化方法，对应不同的方法来学习 $p (z)$ 或 $p (z ∣ y)$ ：

对于KL正则化的潜空间，其输出 $z=E_{\mu}(x)+E_{\sigma}(x)\cdotε=:E(x)$ ，其中 $ε\sim N(0,1)$ 。当重新缩放潜空间时，方差估计为： $\hat\sigma^2=\frac 1 {bchw} \sum_{b,c,h,w}(z^{b,c,h,w}-\hat\mu)^2$ ，其中 $\hat\mu=\frac 1 {bchw} \textstyle\sum_{b,c,h,w}z^{b,c,h,w}$ 。该步骤中， $E$ 的输出会被缩放，重新缩放的潜表示具有单位标准偏差，即 $z\gets \frac z {\hat\sigma}=\frac {E(x)} {\hat\sigma}$ 。
对于VQ正则化的潜空间，本文在量化层之前提取 $z$ ，并将量化操作吸收到解码器中。即该正则化为解码器 $D$ 的第一层。

Additional Qualitative Results

下列为本文训练的景观模型（语义合成）、无条件模型（CelebA-HQ、FFHQ和LSUN数据集）提供的额外定性结果。

reference

Rombach, R. , Blattmann, A. , Lorenz, D. , Esser, P. , & Ommer, B. . (2021). High-resolution image synthesis with latent diffusion models.

你可能感兴趣的:(图像生成,人工智能,deep,learning,深度学习,计算机视觉,算法,stable,diffusion)

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
数据结构奇妙旅程之深入解析快速排序山间漫步人生路数据结构排序算法算法
快速排序（QuickSort）是一种高效的排序算法，它使用了分治法的策略来将一个数组排序。其基本思想是选择一个基准元素，通过一趟排序将待排序的数据分割成独立的两部分，其中一部分的所有数据都比基准元素小，另一部分的所有数据都比基准元素大，然后再按此方法对这两部分数据分别进行快速排序，整个排序过程可以递归进行，以此达到整个数据变成有序序列。工作原理选择基准：从待排序的序列中选一个元素作为基准（pivo
php 把一个数组分成有n个元素的二维数组的算法风清扬-独孤九剑 php php 算法
一、第一种解法0){$columns_map[$position]++;//这个地方格外注意,$position与$columns比较$position=($position<$columns-1)?++$position:0;$array_length--;}foreach($columns_mapas$val){$newarray[]=array_splice($array,0,$val);}
【算法分析与设计】去除重复字母五敷有你算法分析与设计 java javascript 开发语言算法数据结构
个人主页：五敷有你系列专栏：算法分析与设计⛺️稳中求进，晒太阳题目给你一个字符串s，请你去除字符串中重复的字母，使得每个字母只出现一次。需保证返回结果的字典序最小（要求不能打乱其他字符的相对位置）。示例示例1：输入：s="bcabc"输出："abc"示例2：输入：s="cbacdcbc"输出："acdb"思路贪心+单调栈实现【字符串删除一个字符使其字典序最小的贪心策略】：对于两个长度相同的字符串，
C++学习笔记（lambda函数） __TAT__ C&C++c++学习笔记
C++learningnote1、lambda函数的语法2、lambda函数的几种用法1、lambda函数的语法lambda函数的一般语法如下：[capture_clause](parameters)->return_type{function_body}capture_clause：需要捕获的变量，但要求该变量必须在这个作用域中。通常的捕获方式有以下几种：[]：不捕获任何变量[&]：按引用捕获变
yarn的安装和使用全网最详细教程 zxj19880502 yarn npm
一、yarn的简介：Yarn是facebook发布的一款取代npm的包管理工具。二、yarn的特点：速度超快。Yarn缓存了每个下载过的包，所以再次使用时无需重复下载。同时利用并行下载以最大化资源利用率，因此安装速度更快。超级安全。在执行代码之前，Yarn会通过算法校验每个安装包的完整性。超级可靠。使用详细、简洁的锁文件格式和明确的安装算法，Yarn能够保证在不同系统上无差异的工作。三、yarn的
图论记录之最短路迪杰斯特拉 Just right 算法图论 java 开发语言
简述思想这个思想能用一句话来概括，精简到的极致:每次找到一个最短距离的点并更新起点到各个点的最短距离如果要可视化的话，B站搜索Dijksra算法，有视频讲解伪代码写到这里，其实是想整一个动画的，这样效果更好点，但由于种种原因所以就拖一下intdijkstr(){dist[1]=0;其余的点的距离全部初始化为真无穷，不要写成int的最大值迭代n次将不在s中的，且距离最近的点给tsj即先到t，再加上t
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
ES-LTR粗排模块 poins jenkins 运维
ES-LTR粗排模块官方资源：https://github.com/HeiBoWang/elasticsearch-learning-to-rankElasticsearch学习排名插件使用机器学习提高搜索相关性排名。它为维基媒体基金会和Snagajob等地方的搜索提供了动力！这个插件有什么功能此插件：允许您在Elasticsearch中存储特征（Elasticsearch查询模板）记录特征得分（
Ai插件脚本合集安装包，免费教程视频网盘分享全网优惠分享君
随着人工智能技术的不断发展，越来越多的插件脚本涌现出来，为我们的生活和工作带来了便利。然而，如何快速、方便地获取和使用这些插件脚本呢？今天，我将为大家分享一个非常实用的资源——AI插件脚本合集安装包，以及免费教程视频网盘分享。首先，让我们来了解一下这个AI插件脚本合集安装包。它是一个集合了众多AI插件脚本的资源包，涵盖了各种领域，如数据分析、自动化办公、智能客服等等。通过这个安装包，用户可以轻松地
过去一年，这16本好书不容错过 m0_54050778 perl
编者按：2023年在动荡与希望中收尾，2023年注定会被载入史册。疫情寒冬结束，ChatGPT横空出世，带动了人工智能技术的飞速发展；淄博烧烤、天津大爷、尔滨之旅等充满感动与幸福。但与此同时，2023年又是动荡与不安的一年，俄乌冲突的延宕，新一轮的巴以冲突，极端天气频发。在这个大环境下，有一些经典的书籍著作诞生。本文将分享2023年最值得一读的16本书籍，文章来自翻译，希望对你有所启示。关于202
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
【数据结构】实验一实现顺序表各种基本运算的算法张鱼·小丸子数据结构实验 c++数据结构
题目：实现顺序表各种基本运算的算法要求：1、建立一个顺序表，输入n个元素并输出；2、查找线性表中的最大元素并输出；3、在线性表的第i个元素前插入一个正整数x；4、删除线性表中的第j个元素；5、将线性表中的元素按升序排列；6、将线性表中的元素就地逆序（只允许用一个暂存单元）；#include#defineSIZE1000usingnamespacestd;typedefstruct{int*a;//
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Java回溯知识点（含面试大厂题和源码）一成码农 java 面试开发语言
回溯算法是一种通过遍历所有可能的候选解来寻找所有解的算法，如果候选解被确认不是一个解（或至少不是最后一个解），回溯算法会通过在上一步进行一些变化来丢弃这个解，即“回溯”并尝试另一个候选解。回溯法通常用递归方法来实现，在解决排列、组合、选择问题时非常有效。回溯算法的核心要点：路径：也就是已经做出的选择。选择列表：也就是你当前可以做的选择。结束条件：也就是到达决策树底层，无法再做出选择的条件。回溯算法
深度学习项目-基于深度学习的股票价格预测研究雅致教育计算机毕业设计深度学习人工智能
概要随着经济的发展，中国股票市场的规模持续扩大，早已成为金融投资的重要部分，掌握股票市场的变化规律无论是对监管者还是投资者都具有极其重要的意义。正因如此，人们不断探索着股票市场的变化规律，其中使用深度学习预测股价是当前国内国际研究与应用的热点。本文首先从有效市场假说和分形市场假说两个角度讨论了中国股票市场的有效性，说明股票市场具有复杂的非线性特征。其次，结合股票市场特征对比了当前的预测方法
第七章索引及执行计划，存储引擎执笔为剑 #MySQL运维篇编辑器 mysql
第七章索引及执行计划，存储引擎1，索引及执行计划1，作用：提供类似书目录的作用，目的是优化查询2，所用的种类（根据算法）B树索引Hash索引R树FulltextGIS3，B树基于不同的查找算法分类介绍B-tree：在范围查询方面提供了更好的性能（>showengines;#存储引擎作用在表上，不同的表可能有不同的存储引擎mysql>select@@default_storage_engine;#查
Ubuntu下安装Chrome浏览器(简单,使用) Starry-sky(jing) [linux操作系统笔记]chrome 深度学习 linux
下载安装GoogleChrome浏览器deb包极速下载:下载链接32位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_i386.deb64位wgethttps://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb安装sudodpk
Java面试题：解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用，Java中的多线程是如何实现的，Java垃圾回收机制的基本原理，并讨论常见的垃圾回收算法杰哥在此 Java系列 java jvm 算法面试
Java内存模型与多线程的深入探讨在Java的世界里，内存模型和多线程是开发者必须掌握的核心知识点。它们不仅关系到程序的性能和稳定性，还直接影响到系统的可扩展性和可靠性。下面，我将通过三个面试题，带领大家深入理解Java内存模型、多线程以及并发编程的相关原理和实践。面试题一：请解释JVM的内存结构，并描述堆、栈、方法区在内存结构中的角色和作用。关注点：JVM内存结构的基本组成堆、栈、方法区的功能和
ChatGPT技巧大揭秘：AI写代码新境界 2401_83550420 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT技巧大揭秘：AI写代码新境界随着人工智能技术的不断进步，开发人员现在有了更多有趣的工具来提高他们的工作效率。其中，ChatGPT作为一种基于深度学习的自然语言处理模型，已经成为许多开发者的新宠。在本文中，我们将揭秘使用ChatGPT来帮助编写代码的技巧，探索AI在编程领域的新境界。ChatGPT简介ChatGPT是一种基于大型神经网络的对话生成模型，它
ChatGPT：AI合作伙伴助你成为论文写作高手 2401_83550420 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达摘要：本文将介绍ChatGPT3.5Turbo（以下简称ChatGPT），一款强大的AI合作伙伴，能够助你成为一名论文写作高手。我们将深入探讨ChatGPT的特点、优势，并提供多个示例，展示ChatGPT在论文写作中的应用。无论是开展研究、撰写论文、还是与ChatGPT进行互动交流，都能够帮助你提升写作效率和质量。引言：随着人工智能的发展，聊天型语言模型在各个领域都
优化选址问题 | 基于和声搜索算法求解基站选址问题含Matlab源码天天酷科研优化选址问题（LP）matlab 和声搜索算法基站选址问题
目录问题代码问题和声搜索算法（HarmonySearch,HS）是一种模拟音乐创作过程中乐师们凭借自己的记忆，通过反复调整各乐器的音调，直至达到最美和声状态为启发，通过反复调整解向量的各分量来寻求全局最优解的智能优化算法。下面是一个基于和声搜索算法求解基站选址问题的Matlab伪代码框架。请注意，这个框架是一个基本的实现，你可能需要根据你的具体问题和约束条件进行调整和优化。代码%和声搜索算法求解基
AI大模型学习：开启智能时代的新篇章游向大厂的咸鱼人工智能学习
随着人工智能技术的不断发展，AI大模型已经成为当今领先的技术之一，引领着智能时代的发展。这些大型神经网络模型，如OpenAI的GPT系列、Google的BERT等，在自然语言处理、图像识别、智能推荐等领域展现出了令人瞩目的能力。然而，这些模型的背后是一系列复杂的学习过程，深度学习技术的不断演进推动了AI大模型学习的发展。首先，AI大模型学习的基础是深度学习技术。深度学习是一种模仿人类大脑结构的机器
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
OpenCV（一个C++人工智能领域重要开源基础库）简介愚梦者 OpenCV 人工智能人工智能 opencv c++图像处理计算机视觉开源
返回：OpenCV系列文章目录（持续更新中......）上一篇：OpenCV4.9.0配置选项参考下一篇：OpenCV4.9.0开源计算机视觉库安装概述引言：OpenCV（全称OpenSourceComputerVisionLibrary）是一个基于开放源代码发行的跨平台计算机视觉库，可以用来进行图像处理、计算机视觉和机器学习等领域的开发。该库由英特尔公司于1999年开始开发，最初是为了加速处理器
【循环神经网络rnn】一篇文章讲透 CX330的烟花 rnn 人工智能深度学习算法 python 机器学习数据结构
目录引言二、RNN的基本原理代码事例三、RNN的优化方法1长短期记忆网络（LSTM）2门控循环单元（GRU）四、更多优化方法1选择合适的RNN结构2使用并行化技术3优化超参数4使用梯度裁剪5使用混合精度训练6利用分布式训练7使用预训练模型五、RNN的应用场景1自然语言处理2语音识别3时间序列预测六、RNN的未来发展七、结论引言众所周知，CNN与循环神经网络（RNN）或生成对抗网络（GAN）等算法结
ChatGPT：智能论文写作指南，让您成为写作高手 AI臻蚌 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达写作是学术研究中不可或缺的一环，然而，对于许多人来说，写作往往是一项艰巨而费时的任务。但是，现在有了ChatGPT，您将能够以前所未有的速度和准确性编写高质量的论文。本文将向您介绍如何利用ChatGPT的强大功能成为写作高手，并为您提供一些示例，展示其在不同领域的应用。1.简介ChatGPT是一种基于人工智能的语言模型，它可以理解并生成人类语言。通过训练大量的语料库
ChatGPT神技：AI成为你的编程良友 2401_83481083 chatgpt4.0 chatgpt chatgpt 人工智能 AI写作
ChatGPT无限次数:点击直达ChatGPT神技：AI成为你的编程良友近年来，人工智能技术的发展迅猛，ChatGPT作为其中一项创新技术，正逐渐走进我们的生活。在编程领域，AI不仅可以助力我们提高效率，还能成为我们的良友，帮助解决各种编程难题。一、ChatGPT简介ChatGPT是一种基于自然语言处理技术的人工智能模型，它能够生成类人对话。ChatGPT通过深度学习模型，能够理解输入的文本并生成
stable diffusion 提示词进阶语法-学习小结 DTcode7 AI stable diffusion 提示词进阶语法
stablediffusion提示词进阶语法前言提示词语法基础正向提示词基础负面提示词可选正向提示词（特写镜头提示词）进阶语法1——提示词注释进阶语法2——and连接词进阶语法3——BREAK阻断前言AI绘画大家应该都有所接触了吧，mj、sd各有各的好处，俺滴钱包说暂时不支持去买mj账号，所以就先用sd来跑图啦~如果你还没有sd，那就快来看看这位赛博菩萨的启动器吧~博客地址:stablediffu
15届蓝桥杯备赛(3) sad_liu #sad_liu的刷题记录蓝桥杯职场和发展
文章目录15届蓝桥杯备赛(3)回溯算法组合组合总和III电话号码的字母组合组合总和组合总和II分割回文串子集子集II非递减子序列全排列全排列II贪心算法分发饼干最大子数组和买股票的最佳时机II跳跃游戏15届蓝桥杯备赛(3)提高C++程序的输入输出效率，尤其是在需要大量输入输出操作时。ios_base::sync_with_stdio(false);cin.tie(nullptr);cout.tie
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S