SongGu1996

去噪扩散概率模型（Denoising Diffusion Probabilistic Model，DDPM）

去噪扩散概率模型（Denoising Diffusion Probabilistic Model, DDPM）在2020年被提出，向世界展示了扩散模型的强大能力，带动了扩散模型的火热。笔者出于兴趣自学相关知识，结合网络上的参考资料和自己的理解介绍DDPM。需要说明的是，笔者能力很有限，学习过程中遇到了很多知识盲区，只能硬着头皮现学现卖。如果发现文中有错误，欢迎评论指出，大家一起学习，共同进步。

前置知识

① 贝叶斯公式

$P(A,B,C) = P(C\mid B,A)P(B,A)=P(C\mid B,A)P(B\mid A)P(A)$

$P(B,C\mid A) = P(B\mid A)P(C\mid A,B)$

若满足马尔科夫链关系 $A\rightarrow B\rightarrow C$ ，即当前时刻的概率分布仅与上一时刻有关，则有：

$P(A,B,C) = P(C\mid B,A)P(B,A)={\color{Red} P(C\mid B)}P(B\mid A)P(A)$

$P(B,C\mid A) = P(B\mid A){\color{Red} P(C\mid B)}$

② 高斯分布的概率密度函数、高斯函数的叠加公式

给定均值为 $\mu$ ，方差为 $\sigma ^{2}$ 的单一变量高斯分布 $\mathcal{N}(\mu , \sigma ^{2})$ ，其概率密度函数为：

$\small q(x) = \frac{1}{\sqrt{2\pi }\sigma }\exp \left ( -\frac{1}{2}\left ( \frac{x-\mu }{\sigma } \right )^2 \right )$

很多时候，为了方便起见，可以将前面的常数系数去掉，写成：

$\small q(x) \propto exp\left ( -\frac{1}{2}\left ( \frac{x-\mu }{\sigma } \right )^2 \right ) \hspace{1em} \Leftrightarrow \hspace{1em} q(x) \propto \exp \left ( -\frac{1}{2}\left ( \frac{1}{\sigma ^{2}}x^2 - \frac{2\mu }{\sigma ^{2}}x + \frac{\mu ^{2}}{\sigma ^{2}} \right ) \right )$

给定两个高斯分布 $X\sim \mathcal{N}(\mu_{1} , \sigma_{1} ^{2})$ ， $Y\sim \mathcal{N}(\mu_{2} , \sigma_{2} ^{2})$ ，则它们叠加后的分布满足：

$aX+bY\sim \mathcal{N}(a\times \mu _{1} + b \times \mu_{2},a^{2} \times \sigma _{1}^{2} + b^{2} \times \sigma _{2}^{2})$

③ KL散度与交叉熵

详细讲解可参照我之前的博客。假设随机变量的真实概率分布为，而我们通过建模得到的一个近似分布为，则与的KL散度和交叉熵满足下式：

${\color{DarkGreen} D_{KL}(P,Q) }= {\color{Purple} -\sum P\log Q} - (-\sum P\log P) ={\color{Purple} \mathbb{E}_{P}[- \log Q]} - \mathbb{E}_{P}[- \log P]$

对于两个单一变量的高斯分布 $p\sim \mathcal{N}(\mu _{1}, \sigma _{1}^{2})$ 和 $q\sim \mathcal{N}(\mu _{2}, \sigma _{2}^{2})$ 而言，它们的KL散度为：

$D_{KL}(p,q) = \log \frac{\sigma _{2}}{\sigma _{1}} + \frac{\sigma _{1}^{2} + (\mu _{1} - \mu _{2})^{2}}{2 \sigma _{2}^{2}} - \frac{1}{2}$

④ 参数重整化（重参数技巧）

若要从高斯分布 $\mathcal{N}(\mu ,\sigma^{2} )$ 中采样，可先从标准分布 $\mathcal{N}(0 ,1 )$ 中采样出，再得到 $\sigma ^{2}\ast z + \mu$ ，即我们的采样值。这样做的目的是将随机性转移到上，让采样值对 $\mu$ 和 $\sigma$ 可导。

基本介绍

如下图所示，DDPM模型主要分为两个过程：加噪过程（从右往左）和去噪过程（从左往右）。

★ 加噪过程：给定真实图像 $x_{0}$ ，逐步对它添加高斯噪声，得到 $x_{1},\ x_{2},\ \cdots$ ，显然这是一个马尔科夫链过程，在进行了足够多的次加噪后，图像会被高斯噪声淹没，可以认为是各向独立的高斯噪声的图像。

★ 去噪过程：针对噪声图像 $x_{T}$ ，让神经网络模型对其逐步去噪，得到 $x_{T-1},\ x_{T-2},\ \cdots$ ，最终复原出没有噪声的逼真图像 $x_{0}$ ，所以加噪过程其实可以看作是在为去噪过程构建标签。

前向过程（扩散过程，加噪过程）

给定初始图像 $x_{0}$ ，向其中逐步添加高斯噪声，加噪过程持续次，产生一系列带噪图像，达到破坏图像的目的。由 $x_{t-1}$ 加噪至 $x_{t}$ 的过程中，所加噪声的方差为 $\beta _{t}$ ，又称扩散率，是一个给定的，大于 0 小于 1 的，随扩散步数增加而逐渐增大的值。定义扩散过程如下式：

$x_{t}=\sqrt{1-\beta _{t}}x_{t-1}+\sqrt{\beta _{t}}z _{t},\hspace{2em}z_{t}\sim \mathcal N(0,\boldsymbol{I})$

根据定义式，加噪过程可以看作在上一步的状态 $x_{t-1}$ 上乘了一个系数 $\sqrt{1-\beta_{t}}$ ，然后加上了均值为0，方差为 $\beta_{t}$ 的高斯分布。所以加噪过程是确定的，并不是可学习的过程，将其写成概率分布的形式，则有：

$q(x_{t}\mid x_{t-1}) = \mathcal{N} (x_{t}; \sqrt{1 - \beta _{t}}x_{t-1}, \beta_{t}\boldsymbol{I})$

此外，加噪过程是一个马尔科夫链过程，所以联合概率分布可以写成下式：

$q(x_{1},x_{2},\cdots ,x_{T} | x_{0}) = q(x_{1} | x_{0})q(x_{2} | x_{1})\cdots q(x_{T}| x_{T-1}) = \prod_{t=1}^{T}q(x_{t}| x_{t-1})$

定义 $\alpha _{t} = 1 - \beta _{t}$ ，即 $\alpha _{t} + \beta _{t} = 1$ ，代入 $x_{t}$ 表达式并迭代推导，可以得到 $x_{0}$ 到 $x_{t}$ 的公式：

$x_{t} = \sqrt{1-\beta _{t}}x_{t-1} + \sqrt{\beta _{t}}z _{t} = \sqrt{\alpha _{t}}x_{t-1}+\sqrt{\beta _{t}}z _{t}$

$= \sqrt{\alpha _{t}}{\color{Red} (\sqrt{\alpha _{t-1}}x_{t-2} + \sqrt{\beta _{t-1}}z _{t-1})} + \sqrt{\beta _{t}}z _{t}$

$=\sqrt{\alpha _{t}\alpha _{t-1}}x_{t-2}+\sqrt{\alpha _{t}\beta _{t-1}}z _{t-1}+\sqrt{\beta _{t}}z _{t}$

$=\sqrt{\alpha _{t}\alpha _{t-1}}{\color{Red} (\sqrt{\alpha _{t-2}}x_{t-3} + \sqrt{\beta _{t-2}}z _{t-2})} + \sqrt{\alpha _{t}\beta _{t-1}}z _{t-1} + \sqrt{\beta _{t}}z _{t}$

$=\sqrt{\alpha _{t}\alpha _{t-1}\alpha _{t-2}}x_{t-3} + \sqrt{\alpha _{t}\alpha _{t-1}\beta _{t-2}}z _{t-2} + \sqrt{\alpha _{t}\beta _{t-1}}z _{t-1} + \sqrt{\beta _{t}}z _{t}$

$= \sqrt{\alpha _{t}\alpha _{t-1}\cdots \alpha _{1}}x_{0} + \sqrt{\alpha _{t}\alpha _{t-1}\cdots \alpha _{2}\beta _{1}}z _{1} + \sqrt{\alpha _{t}\alpha _{t-1}\cdots \alpha _{3}\beta _{2}}z _{2} + \cdots + \sqrt{\alpha _{t}\alpha _{t-1}\beta _{t-2}}z _{t-2} + \sqrt{\alpha _{t}\beta _{t-1}}z _{t-1} + \sqrt{\beta _{t}}z _{t}$

上式从第二项到最后一项都是独立的高斯噪声，它们的均值都为0，方差为各自系数的平方。根据高斯分布的叠加公式，它们的和满足均值为0，方差为各项方差之和的高斯分布。又有上式每一项系数的平方和（包括第一项）为1，证明如下，注意始终有 $\alpha _{t} + \beta _{t} = 1$ ：

$\alpha _{t}\alpha _{t-1}\cdots \alpha _{1} + \alpha _{t}\alpha _{t-1}\cdots \alpha _{2}\beta _{1} + \alpha _{t}\alpha _{t-1}\cdots \alpha _{3}\beta _{2} + \cdots + \alpha _{t}\beta _{t-1} + \beta _{t}$

$= \alpha _{t}\alpha _{t-1}\cdots \alpha _{2}(\alpha _{1} + \beta _{1}) + \alpha _{t}\alpha _{t-1}\cdots \alpha _{3}\beta _{2} + \cdots + \alpha _{t}\alpha _{t-1}\beta _{t-2} + \alpha _{t}\beta _{t-1} + \beta _{t}$

$= \alpha _{t}\alpha _{t-1}\cdots \alpha _{2}\times {\color{Red} 1} + \alpha _{t}\alpha _{t-1}\cdots \alpha _{3}\beta _{2} + \cdots + \alpha _{t}\alpha _{t-1}\beta _{t-2} + \alpha _{t}\beta _{t-1} + \beta _{t}$

$= \alpha _{t}\alpha _{t-1}\cdots \alpha _{3}(\alpha _{2}+\beta _{2}) + \cdots + \alpha _{t}\alpha _{t-1}\beta _{t-2} + \alpha _{t}\beta _{t-1} + \beta _{t}$

$= \alpha _{t}\alpha _{t-1}\cdots \alpha _{3}\times {\color{Red} 1} + \cdots + \alpha _{t}\alpha _{t-1}\beta _{t-2} + \alpha _{t}\beta _{t-1} + \beta _{t}$

$= \cdots \cdots = \alpha _{t} + \beta _{t} = 1$

那么，将 $\alpha _{t}\alpha _{t-1}\cdots \alpha _{1}$ 记作 $\bar{\alpha }_{t}$ ，则正态噪声的方差之和为 $1-\bar{\alpha }_{t}$ ， $x_{t}$ 可表示为：

$x_{t} = \sqrt{\bar{\alpha }_{t}}x_{0} + \sqrt{1-\bar{\alpha }_{t}}\bar{z}_{t},\hspace{2em}\bar{z}_{t} \sim \mathcal N(0,\boldsymbol{I})$

由该式可以看出， $x_{t}$ 实际上是原始图像 $x_{0}$ 和随机噪声 $\bar{z}_{t}$ 的线性组合，即只要给定初始值，以及每一步的扩散率，就可以得到任意时刻的 $x_{t}$ ，写成概率分布的形式：

$q(x_{t}\mid x_{0}) = \mathcal{N}(x_{t}; \sqrt{\bar{\alpha }_{t}}x_{0}, (1-\bar{\alpha }_{t})\boldsymbol{I})$

当加噪步数足够大时， $\bar{\alpha }_{t}$ 趋向于 0， $1-\alpha_{t}$ 趋向于 1，所以 $x_{T}$ 趋向于标准高斯分布。

反向过程（逆扩散过程，去噪过程）

前向过程对原始图像 $x_{0}$ 逐步加噪声变成 $x_{T}$ ，反向过程则是从 $x_{T}$ 逐步恢复到 $x_{0}$ 。前向过程我们用 $q(x_{t}\mid x_{t-1})$ 来表示，而反向过程则是求 $q(x_{t-1}\mid x_{t})$ 。如果能实现这种逆转，就可以从一个随机的高斯噪声 $\mathcal{N}(0,\boldsymbol{I})$ 中重建出一个真实的原始样本，即从杂乱无章的噪声图像中得到真实图像，实现图像生成的目的。

有文献证明，如果 $q(x_{t}\mid x_{t-1})$ 满足高斯分布且 $\beta _{t}$ 足够小，则 $q(x_{t-1}\mid x_{t})$ 也满足高斯分布。虽然我们已知前向过程中每一步所加的噪声都采样自特定的高斯分布，但是采样有无数种可能，所以我们无法简单地预测 $q(x_{t-1}\mid x_{t})$ ，这时候深度学习就有用武之地了，可以通过学习一个深度网络（参数为 $\theta$ ）来模拟。

反向过程仍然是一个马尔科夫链过程，网络以当前时刻和当前时刻的图像 $x_{t}$ 作为输入，构建反向过程条件概率，其中，均值和方差都是含参的，且都以 $x_{t}$ 和作为输入，有下式：

$p_{\theta}(x_{t-1}\mid x_{t}) = \mathcal{N}\left ( x_{t-1}; \mu _{\theta}(x_{t}, t), \Sigma _{\theta}(x_{t}, t) \right )$

$p_{\theta}(x_{0:T}) = p_{\theta}(x_{T})p_{\theta}(x_{T-1} \mid x_{T})\cdots q(x_{0}\mid x_{1}) = p_{\theta}(x_{T}) \prod_{t=1}^{T}p_{\theta}(x_{t-1}\mid x_{t})$

而真实的反向过程，或者称作扩散过程的后验条件概率，可以写成：

$q(x_{t-1}\mid x_{t}) = q(x_{t}\mid x_{t-1}) \frac{q(x_{t-1})}{q(x_{t})}$

其中， $q(x_{t-1})$ 是不可知的，但是如果知道 $x_{0}$ ，则扩散过程的后验条件概率可以写成：

$\small q(x_{t-1}\mid x_{t}, x_{0}) = \frac{q(x_{t}\mid x_{t-1}, x_{0})\times q(x_{t-1}\mid x_{0})}{q(x_{t}\mid x_{0})} = \mathcal{N}\left ( x_{t-1}, {\color{Blue} \tilde{\mu }(x_{t}, x_{0})}, {\color{Red} \tilde{\beta }_{t}}\boldsymbol{I} \right )$

又根据前向过程的推导，有下面三个式子满足：

$\small q(x_{t-1}| x_{0}) = \sqrt{\bar{\alpha }_{t-1}}x_{0} + \sqrt{1-\bar{\alpha }_{t-1}}\bar{z}_{t-1} \hspace{0.9em} \sim \hspace{0.9em} \mathcal{N}\left ( x_{t-1}; \sqrt{\bar{\alpha }_{t-1}}x_{0}, \left ( 1-\bar{\alpha }_{t-1} \right )\boldsymbol{I} \right )$

$\small q(x_{t}\mid x_{0}) = \sqrt{\bar{\alpha }_{t}}x_{0} + \sqrt{1-\bar{\alpha }_{t}}\bar{z}_{t} \hspace{1em} \sim \hspace{1em} \mathcal{N}\left ( x_{t}; \sqrt{\bar{\alpha }_{t}}x_{0}, (1-\bar{\alpha }_{t})\boldsymbol{I} \right )$

$q(x_{t}\mid x_{t-1}, x_{0}) = q(x_{t}\mid x_{t-1}) = \sqrt{\alpha _{t}}x_{t-1} + \sqrt{\beta _{t}}z _{t} \hspace{1em} \sim \hspace{1em} \mathcal{N}\left ( x_{t}; \sqrt{\alpha _{t}}x_{t-1}, \beta _{t} \boldsymbol{I} \right )$

将三个式子代入，并结合前置知识中的高斯函数概率密度函数，展开后合并同类项，有下式：

$q(x_{t-1}\mid x_{t}, x_{0}) = \frac{\mathcal{N}(x_{t}; \sqrt{\alpha _{t}}x_{t-1}, \beta _{t} \boldsymbol{I}) \times \mathcal{N}(x_{t-1}; \sqrt{\bar{\alpha }_{t-1}}x_{0}, (1-\bar{\alpha }_{t-1})\boldsymbol{I})}{\mathcal{N}(x_{t}; \sqrt{\bar{\alpha }_{t}}x_{0}, (1-\bar{\alpha }_{t})\boldsymbol{I})}$

$\small \propto \exp \left ( -\frac{1}{2}\left ( \frac{(x_{t} - \sqrt{\alpha _{t}}x_{t-1})^{2}}{\beta _{t}} + \frac{(x_{t-1} - \sqrt{\bar{\alpha }_{t-1}}x_{0})^{2}}{1-\bar{\alpha }_{t-1}} - \frac{(x_{t} - \sqrt{\bar{\alpha }_{t}}x_{0})^{2}}{1 - \bar{\alpha }_{t}} \right ) \right )$

$\small \small = \exp \left ( -\frac{1}{2}\left ( \frac{x_{t}^{2} - 2 \sqrt{\alpha _{t}}x_{t}{\color{Blue} x_{t-1}} + \alpha_{t}{\color{Red} x_{t-1}^{2}}}{\beta _{t}} + \frac{{\color{Red} x_{t-1}^{2}} - 2 \sqrt{\bar{\alpha }_{t-1}}x_{0}{\color{Blue} x_{t-1}} + \bar{\alpha }_{t-1}x_{0}^{2}}{1-\bar{\alpha }_{t-1}} - \frac{(x_{t} - \sqrt{\bar{\alpha }_{t}}x_{0})^{2}}{1 - \bar{\alpha }_{t}} \right ) \right )$

$\small =\exp \left ( -\frac{1}{2}\left ( {\color{Red} \left ( \frac{\alpha _{t}}{\beta _{t}} + \frac{1}{1 - \bar{\alpha }_{t-1}} \right )}x_{t-1}^{2} - {\color{Blue} \left ( \frac{2\sqrt{\alpha _{t}}}{\beta _{t}} x_{t}+ \frac{2 \sqrt{\bar{\alpha }_{t-1}}}{1 - \bar{\alpha }_{t-1}}x_{0} \right )}x_{t-1} + \mathcal{C}\left ( x_{t}, x_{0} \right ) \right ) \right )$

此式符合前置知识中高斯函数概率密度函数的展开形式，有以下两个式子满足：

$\frac{1}{\tilde{\beta _{t}} ^{2}} = {\color{Red} \frac{\alpha _{t}}{\beta _{t}} + \frac{1}{1 - \bar{\alpha} _{t-1}}} \hspace{1em} and \hspace{1em} \frac{2 \tilde{\mu }(x_{t}, x_{0}) }{\tilde{\beta _{t}} ^{2}}={\color{Blue} \frac{2\sqrt{\alpha _{t}}}{\beta _{t}}x_{t} + \frac{2\sqrt{\bar{\alpha }_{t-1}}}{1 - \bar{\alpha }_{t-1}}x_{0}}$

对第一个式子，有：

$\frac{1}{\tilde{\beta _{t}} ^{2}} = \frac{\alpha _{t}(1-\bar{\alpha }_{t-1}) + {\color{DarkRed} \beta _{t}}}{\beta _{t}(1 - \bar{\alpha }_{t-1})} = \frac{\alpha _{t} -{\color{DarkOrange} \alpha _{t}\bar{\alpha }_{t-1}} + {\color{DarkRed} 1 - \alpha _{t}}}{\beta _{t}(1 - \bar{\alpha }_{t-1})} = \frac{1 - {\color{DarkOrange} \bar{\alpha }_{t}}}{\beta _{t}(1 - \bar{\alpha }_{t-1})}$

对第二个式子，有：

$\small \tilde{\mu }(x_{t}, x_{0}) = \left ( \frac{\sqrt{\alpha _{t}}}{\beta _{t}}x_{t} + \frac{\sqrt{\bar{\alpha } _{t-1}}}{1-\bar{\alpha }_{t-1}}x_{0} \right )\times {\color{DarkRed} \tilde{\beta _{t}} ^{2}} = \left ( \frac{\sqrt{\alpha _{t}}}{\beta _{t}}x_{t} + \frac{\sqrt{\bar{\alpha } _{t-1}}}{1-\bar{\alpha }_{t-1}}x_{0} \right )\times {\color{DarkRed} \frac{1-\bar{\alpha }_{t-1}}{1-\bar{\alpha }_{t}}\beta _{t}}$

$= \frac{\sqrt{\alpha _{t}}(1-\bar{\alpha }_{t-1})}{1 - \bar{\alpha }_{t}}x_{t} + \frac{\sqrt{\bar{\alpha }_{t-1}}}{1 - \bar{\alpha }_{t}}\beta _{t}{\color{DarkOrange} x_{0}} = \frac{\sqrt{\alpha _{t}}(1-\bar{\alpha }_{t-1})}{1 - \bar{\alpha }_{t}}x_{t} + \frac{\sqrt{\bar{\alpha }_{t-1}}}{1 - \bar{\alpha }_{t}}\beta _{t}{\color{DarkOrange} \frac{x_{t} - \sqrt{1 - \bar{\alpha }_{t}}\bar{z}_{t} }{\sqrt{\bar{\alpha }_{t}}}}$

$= \left ( \frac{\sqrt{\alpha _{t}}(1 - \bar{\alpha }_{t-1})}{1 - \bar{\alpha }_{t}} + \frac{{\color{Magenta} \beta _{t}}{\color{DarkGreen} \sqrt{\bar{\alpha }_{t-1}}}}{{\color{DarkGreen} \sqrt{\bar{\alpha } _{t}}}(1 - \bar{\alpha }_{t})} \right )x_{t} - \frac{{\color{Purple} \sqrt{\bar{\alpha }_{t-1}}}\sqrt{1 - \bar{\alpha }_{t}}\beta _{t}\bar{z}_{t} }{{\color{Purple} \sqrt{\bar{\alpha } _{t}}}(1 - \bar{\alpha }_{t})}$

$= \left ( \frac{\sqrt{\alpha _{t}}(1-\bar{\alpha }_{t-1})}{1 - \bar{\alpha }_{t}} + \frac{{\color{Magenta} 1 - \alpha _{t}}}{{\color{DarkGreen} \sqrt{\alpha _{t}}}(1 - \bar{\alpha }_{t})} \right )x_{t} - \frac{\beta _{t}\bar{z}_{t} }{{\color{Purple} \sqrt{\alpha _{t}}}\sqrt{1 - \bar{\alpha }_{t}}}$

$= \frac{\alpha _{t}(1 - \bar{\alpha }_{t-1}) + 1 - \alpha _{t}}{\sqrt{\alpha _{t}}(1 - \bar{\alpha }_{t})}x_{t} - \frac{\beta _{t}\bar{z}_{t} }{\sqrt{\alpha _{t}}\sqrt{1-\bar{\alpha }_{t}}} = \frac{1 - {\color{DarkBlue} \alpha _{t}\bar{\alpha }_{t-1}}}{\sqrt{\alpha _{t}}(1 - \bar{\alpha }_{t})}x_{t} - \frac{\beta _{t}\bar{z}_{t} }{\sqrt{\alpha _{t}}\sqrt{1-\bar{\alpha }_{t}}}$

$= \frac{1 - {\color{DarkBlue} \bar{\alpha }_{t}}}{\sqrt{\alpha _{t}}(1 - \bar{\alpha }_{t})}x_{t} - \frac{\beta _{t}\bar{z}_{t} }{\sqrt{\alpha _{t}}\sqrt{1-\bar{\alpha }_{t}}} = \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t} - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}\bar{z}_{t} \right )$

所以，在给定 $x_{0}$ 的条件下，反向过程真实的概率分布的均值只与 $x_{t}$ 和 $\bar{z}_{t}$ 有关，满足下式：

$q(x_{t-1}\mid x_{t},x_{0}) = \mathcal{N}\left ( x_{t-1}, {\color{Blue} \tilde{\mu }(x_{t},x_{0})}, {\color{Red} \tilde{\beta }_{t}}\boldsymbol{I} \right )=\mathcal{N}\left ( x_{t-1}, {\color{Blue} \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t} - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}\bar{z}_{t} \right )}, {\color{Red} \frac{1-\bar{\alpha }_{t-1}}{1-\bar{\alpha }_{t}}\beta _{t}} \boldsymbol{I} \right )$

优化目标

我们的目标是得到尽可能真实的 $x_{0}$ ，即求模型参数 $\theta$ ，使其最终得到 $x_{0}$ 的概率最大，这显然是一个极大似然估计问题，写出似然函数：

$p\left ( x_{0}\mid \theta \right ) = p_{\theta }(x_{0}) = \int_{x_{1}}\int _{x_{2}}\cdots \int _{x_{T}}p_{\theta}(x_{0}, x_{1}, x_{2},\cdots ,x_{T}) d_{x_{1}}d_{x_{2}}\cdots d_{x_{T}}$

$= \int_{x_{1}}\int _{x_{2}}\cdots \int _{x_{T}}{\color{DarkGreen} q(x_{1:T}\mid x_{0}) }\frac{p_{\theta}(x_{0}, x_{1}, x_{2},\cdots ,x_{T})}{{\color{DarkGreen} q(x_{1:T}\mid x_{0})}} d_{x_{1}}d_{x_{2}}\cdots d_{x_{T}}$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\frac{{\color{DarkRed} p_{\theta}(x_{0:T})}}{ q(x_{1:T}\mid x_{0})} \right]$

由不等式，对任一凸函数，始终满足函数值的期望大于等于期望的函数值，对上式两边取对数，得到对数似然函数，满足：

$\log p_{\theta }(x_{0}) = \log \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [ \frac{ p_{\theta}(x_{0:T})}{ q(x_{1:T}\mid x_{0})} \right] \geq \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{ p_{\theta}(x_{0:T})}{ q(x_{1:T}\mid x_{0})}\right]$

再对两边同时取负，得到负对数似然函数，满足：

$- \log p_{\theta }(x_{0}) \leq \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{ q(x_{1:T}\mid x_{0})}{ p_{\theta}(x_{0:T})}\right]$

式子右侧称为变分上界，最大化对数似然函数可以转换为最小化变分上界，结合马尔科夫链的贝叶斯公式将变分上界展开：

$L_{VLB} = \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{ {\color{DarkBlue} q(x_{1:T}\mid x_{0})}}{ {\color{DarkRed} p_{\theta}(x_{0:T})}}\right] = \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{ {\color{DarkBlue} q(x_{1}\mid x_{0})q(x_{2}\mid x_{1})\cdots q(x_{T}\mid x_{T-1})}}{ {\color{DarkRed} p_{\theta}(x_{T})p_{\theta}(x_{T-1}\mid x_{T})\cdots p_{\theta}(x_{1}\mid x_{0})}}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{{\color{DarkBlue} \prod_{t=1}^{T} q(x_{t}\mid x_{t-1})}}{{\color{DarkRed} p_{\theta}(x_{T}) \prod_{t=1}^{T} p_{\theta}(x_{t-1}\mid x_{t})}}\right] = \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=1}^{T}\log \frac{q(x_{t}\mid x_{t-1})}{p_{\theta}(x_{t-1}\mid x_{t})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{{\color{Purple} q(x_{t}\mid x_{t-1})}}{p_{\theta}(x_{t-1}\mid x_{t})} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{{\color{Purple} q(x_{t}\mid x_{t-1}, x_{0})}}{p_{\theta}(x_{t-1}\mid x_{t})} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{{\color{Purple} q(x_{t}, x_{t-1}, x_{0})}}{p_{\theta}(x_{t-1}\mid x_{t}){\color{Purple} q(x_{t-1},x_{0})}} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{{\color{Purple} q(x_{t-1}\mid x_{t},x_{0})q(x_{t}\mid x_{0})q(x_{0})}}{p_{\theta}(x_{t-1}\mid x_{t}){\color{Purple} q(x_{t-1}\mid x_{0})q(x_{0})}} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{q(x_{t-1}\mid x_{t},x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})}\cdot \frac{q(x_{t}\mid x_{0})}{q(x_{t-1}\mid x_{0})} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} + {\color{Red} \sum_{t=2}^{T}\log \frac{q(x_{t}\mid x_{0})}{q(x_{t-1}\mid x_{0})}} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [- \log p_{\theta}(x_{T}) + \sum_{t=2}^{T}\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} + {\color{Red} \log \frac{q(x_{T}\mid x_{0})}{q(x_{1}\mid x_{0})}} + \log \frac{q(x_{1}\mid x_{0})}{p_{\theta }(x_{0} \mid x_{1})}\right]$

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{q(x_{T}\mid x_{0})}{p_{\theta}(x_{T})} + \sum_{t=2}^{T}\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} - \log p_{\theta}(x_{0}\mid x_{1})\right]$

因为和的期望等于期望的和，可得：

$= \mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{q(x_{T}\mid x_{0})}{p_{\theta}(x_{T})} \right] + \sum_{t=2}^{T}\mathbb{E}_{ q(x_{1:T}\mid x_{0})}\left [\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} \right] - \mathbb{E}_{ q(x_{1:T}\mid x_{0})} \left [ \log p_{\theta}(x_{0}\mid x_{1}) \right ]$

因为期望目标与部分时间步的概率无关可以直接省去，可得：

$= \mathbb{E}_{ q(x_{T}\mid x_{0})}\left [\log \frac{q(x_{T}\mid x_{0})}{p_{\theta}(x_{T})} \right] + \sum_{t=2}^{T}\mathbb{E}_{ q(x_{t},x_{t-1}\mid x_{0})}\left [\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} \right] - \mathbb{E}_{ q(x_{1}\mid x_{0})} \left [ \log p_{\theta}(x_{0}\mid x_{1}) \right ]$

中间的求和项根据前置知识中的贝叶斯公式改写，可得：

$\small = \mathbb{E}_{ q(x_{T}\mid x_{0})}\left [\log \frac{q(x_{T}\mid x_{0})}{p_{\theta}(x_{T})} \right] + \sum_{t=2}^{T}\mathbb{E}_{ q(x_{t}\mid x_{0}) q(x_{t-1}\mid x_{t},x_{0})}\left [\log \frac{q(x_{t-1}\mid x_{t}, x_{0})}{p_{\theta}(x_{t-1}\mid x_{t})} \right] - \mathbb{E}_{ q(x_{1}\mid x_{0})} \left [ \log p_{\theta}(x_{0}\mid x_{1}) \right ]$

$= {\color{DarkOrange} D_{KL}\left ( q(x_{T}| x_{0})\parallel p_{\theta}(x_{T}) \right )} {\color{DarkGreen} + \sum_{t=2}^{T} \mathbb{E}_{ q(x_{t}\mid x_{0})} \left [ D_{KL}(q(x_{t-1}| x_{t},x_{0})\parallel p_{\theta}(x_{t-1}| x_{t})) \right ]} {\color{Golden} - \mathbb{E}_{ q(x_{1}\mid x_{0})} \left [ \log p_{\theta}(x_{0}| x_{1}) \right ]}$

$= {\color{DarkOrange} L_{T}} {\color{DarkGreen} + L_{T-1} + \cdots} {\color{Golden} + L_{0}}$

对 $L_{T}$ 而言，先验分布 $q(x_{T}\mid x_{0})$ 是一个确定的值，而 $p_{\theta} (x_{T})$ 是一个各向同性的高斯分布，二者都不含参，KL散度近似为 0，最小化变分上界时不用考虑。而对于中间的求和项，当的取值为 1 时，分子为 $q(x_{0} \mid x_{1}, x_{0})$ ，即在已知 $x_{0}$ 的条件下求 $x_{0}$ 的概率分布，肯定是一个确定值，所以对比下来发现其实 $L_{0}$ 可以并入 $L_{t-1}$ ，由此可将变分上界简化一些。推导到这里，优化目标就被转化为了最小化后验分布与网络参数化的高斯分布之间的KL散度。

为了简化计算，DDPM对 $p_{\theta}(x_{t-1}\mid x_{t})$ 做了进一步简化，采用固定的方差： $\Sigma _{\theta}(x_{t}, t) = \sigma_{t} ^{2}\boldsymbol{I}$ ，这里的 $\sigma_{t} ^{2}$ 是一个无需训练的常量，文中提到，设置为 $\beta _{t}$ 或 $\tilde{\beta }_{t}$ 有相似的效果，这里假定 $\sigma_{t} ^{2} = \tilde{\beta }_{t}$ ，则KL散度中的两项分别可写作：

$\small q(x_{t-1}\mid x_{t},x_{0}) = \mathcal{N}\left ( x_{t-1}, \tilde{\mu }(x_{t},x_{0}), {\color{Red} \tilde{\beta }_{t}}\boldsymbol{I} \right )= \mathcal{N}\left ( x_{t-1}, \tilde{\mu }(x_{t},x_{0}), {\color{Red} \sigma_{t}^{2}}\boldsymbol{I} \right )$

$\small p_{\theta}(x_{t-1}\mid x_{t}) = \mathcal{N}\left ( x_{t-1}; \mu _{\theta}(x_{t}, t), {\color{Red} \Sigma _{\theta}(x_{t}, t)} \right ) = \mathcal{N}(x_{t-1}; \mu _{\theta}(x_{t}, t), {\color{Red} \sigma_{t}^{2}}\boldsymbol{I})$

结合前置知识中高斯分布的KL散度公式，有：

$D_{KL}\left ( q(x_{T}| x_{0})\parallel p_{\theta}(x_{T}) \right ) = D_{KL}\left ( \mathcal{N}(x_{t-1}, \tilde{\mu }(x_{t},x_{0}), \sigma_{t}^{2}\boldsymbol{I}) \parallel \mathcal{N}(x_{t-1}; \mu _{\theta}(x_{t}, t), \sigma_{t}^{2}\boldsymbol{I}) \right )$

$= \log 1 + \frac{\sigma _{t}^{2} + \left \| \tilde{\mu }_{t}(x_{t},x_{0}) - \mu _{\theta}(x_{t}, t) \right \| ^{2}}{2 \sigma_{t} ^{2}} - \frac{1}{2} = \frac{1}{2\sigma_{t} ^{2}}\left \| \tilde{\mu }_{t}(x_{t},x_{0}) - \mu _{\theta}(x_{t}, t) \right \| ^{2}$

将此式代回之前变分上界的式子，则优化目标 $L_{t-1}$ 可以写作：

$L_{t-1} = \mathbb{E}_{ q(x_{t}\mid x_{0})}\left [ \frac{1}{2\sigma_{t} ^{2}}\left \| \tilde{\mu }_{t}(x_{t},x_{0}) - \mu _{\theta}(x_{t}, t) \right \| ^{2} \right ]$

也就是说，我们希望网络参数化高斯分布的均值 $\mu _{\theta}(x_{t},t)$ 与后验分布的均值 $\tilde{\mu }_{t}(x_{t},x_{0})$ 一致。但是，此式还可以继续扩展，在反向过程中， $\tilde{\mu }_{t}(x_{t},x_{0})$ 可以写成用 $x_{t}$ 和 $\bar{z}_{t}$ 表示的形式，而在前向过程中， $x_{t}$ 又可以写成用 $x_{0}$ 和 $\bar{z}_{t}$ 表示的形式，将它们代入上式，则有：

$L_{t-1} = \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})}\left [ \frac{1}{2\sigma_{t} ^{2}}\left \| \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t}\left ( x_{0}, \bar{z}_{t}\right ) - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}\bar{z}_{t} \right ) - \mu _{\theta}\left ( x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t \right ) \right \| ^{2} \right ]$

其中，参数化高斯分布的均值 $\mu _{\theta}(x_{t},t)$ 可以相应改写成与真实均值 $\tilde{\mu }_{t}(x_{t},x_{0})$ 一样的形式：

$\small \mu _{\theta}(x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t) = \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t}\left ( x_{0}, \bar{z}_{t}\right ) - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}z_{\theta}(x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t) \right )$

这里的 $z_{\theta}(x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t))$ 是神经网络的拟合项，即优化目标由原来的拟合均值转换成了拟合噪声。将其代入 $L_{t-1}$ 的表达式中，则有：

$L_{t-1} = \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})} \left [ \frac{1}{2\sigma_{t} ^{2}}\left \| \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t}\left ( x_{0}, \bar{z}_{t}\right ) - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}\bar{z}_{t} \right ) - \frac{1}{\sqrt{\alpha _{t}}}\left ( x_{t} - \frac{\beta _{t}}{\sqrt{1-\bar{\alpha }_{t}}}z_{\theta}(x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t) \right ) \right \| ^{2} \right ]$

$= \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})} \left [ \frac{1}{2\sigma_{t} ^{2}}\left \| \frac{x_{t}\left ( x_{0}, \bar{z}_{t}\right )}{\sqrt{\alpha _{t}}}-\frac{\beta _{t}}{\sqrt{\alpha _{t}} \sqrt{1-\bar{\alpha }_{t}}}\bar{z}_{t} - \frac{x_{t}\left ( x_{0}, \bar{z}_{t}\right )}{\sqrt{\alpha _{t}}} + \frac{\beta _{t}}{\sqrt{\alpha _{t}}\sqrt{1-\bar{\alpha }_{t}}}z_{\theta}(x_{t}\left ( x_{0}, \bar{z}_{t}\right ), t) \right \| ^{2} \right ]$

$= \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})} \left [ \frac{1}{2\sigma_{t} ^{2}}\left \| \frac{\beta _{t}}{\sqrt{\alpha _{t}} \sqrt{1-\bar{\alpha }_{t}}}\left (\bar{z}_{t} - z_{\theta}\left ( {\color{Magenta} x_{t}(x_{0},\bar{z}_{t})}, t \right ) \right ) \right \| ^{2} \right ]$

$= \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})} \left [ \frac{\beta_{t}^{2}}{2\sigma ^{2} \alpha _{t}(1 - \bar{\alpha }_{t})}\left \| \bar{z}_{t} - z_{\theta}({\color{Magenta} \sqrt{\bar{\alpha }_{t}}x_{0} + \sqrt{1-\bar{\alpha }_{t}}\bar{z}_{t}}, t) \right \| ^{2} \right ]$

可以将系数项去掉，进一步简化：

$L_{t-1}^{simple}= \mathbb{E}_{ x_{0}, \bar{z}_{t} \sim \mathcal{N}(0,\boldsymbol{I})} \left [ \left \| \bar{z}_{t} - z_{\theta}(\sqrt{\bar{\alpha }_{t}}x_{0} + \sqrt{1-\bar{\alpha }_{t}}\bar{z}_{t}, t) \right \| ^{2} \right ]$

虽然背后的推导比较复杂，但是最终得到的优化目标非常简单，就是让网络预测的噪声与真实的噪声一致。

参考

大一统视角理解扩散模型Understanding Diffusion Models: A Unified Perspective 阅读笔记 - 知乎

扩散模型之DDPM - 知乎

动态-哔哩哔哩

什么是 Diffusion Models/扩散模型？_哔哩哔哩_bilibili

Jensen不等式及其应用 - 知乎

单变量高斯分布的KL散度_昕晛的博客-CSDN博客_高斯分布的kl散度

组会分享：生成扩散概率模型简介 Diffusion Models_哔哩哔哩_bilibili

简单基础入门理解Denoising Diffusion Probabilistic Model，DDPM扩散模型_xiongxyowo的博客-CSDN博客

轻松学习扩散模型（diffusion model），被巨怪踩过的脑袋也能懂——原理详解+pytorch代码详解（附全部代码） - 知乎

你可能感兴趣的:(深度算法,DDPM,去噪扩散概率模型,Diffusion,Model,扩散模型)

日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
2023-11-02 一帆f
发现浸润心田的感觉：今天一个机缘之下突然想分享我的婆媳关系，我一边分享一边回忆我之前和儿媳妇关系的微妙变化，特别是分享到我能感受到儿媳妇的各种美好，现在也能心平气和的和老公平等对话，看到自己看到老公，以己推人以人推己自然而然的换位思考，心中有一种美好的能量在涌动，一种浸润心田的感觉从心胸向全身扩散，美好极了……我很想记住这种感觉，赶紧把它写下来以留纪念，也就是当我看见他人的美好，美好的美妙的浸润心
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
营销活动-大转盘無缺520
写在前面最近，首先营销活动工具这块我是再熟悉不过了。曾经做了不下20个活动工具，然后通过监控活动数据反推活动的好坏。文中主要讲解幸运大转盘营销工具一.大转盘定义大转盘是比较常见的营销活动工具，它是通过消费者用户控制【开始/停止】操作获得奖品物品。用户在不知道自己能获得什么奖品的条件下，然后通过抽奖，大概率的获得未知的奖品。类似最近流行的盲盒玩法。二.为什么做大转盘大转盘是最常用的抽奖类的活动工具之
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
linux系统服务器下jsp传参数乱码 3213213333332132 java jsp linux windows xml
在一次解决乱码问题中，发现jsp在windows下用js原生的方法进行编码没有问题，但是到了linux下就有问题， escape,encodeURI,encodeURIComponent等都解决不了问题但是我想了下既然原生的方法不行，我用el标签的方式对中文参数进行加密解密总该可以吧。于是用了java的java.net.URLDecoder,结果还是乱码，最后在绝望之际，用了下面的方法解决了
Spring 注解区别以及应用 BlueSkator spring
1. @Autowired @Autowired是根据类型进行自动装配的。如果当Spring上下文中存在不止一个UserDao类型的bean，或者不存在UserDao类型的bean，会抛出 BeanCreationException异常，这时可以通过在该属性上再加一个@Qualifier注解来声明唯一的id解决问题。 2. @Qualifier 当spring中存在至少一个匹
printf和sprintf的应用 dcj3sjt126com PHP sprintf printf
<?php printf('b: %b c: %c d: %d <bf>f: %f', 80,80, 80, 80); echo ' '; printf('%0.2f %+d %0.2f ', 8, 8, 1235.456); printf('th
config.getInitParameter 171815164 parameter
web.xml <servlet> <servlet-name>servlet1</servlet-name> <jsp-file>/index.jsp</jsp-file> <init-param> <param-name>str</param-name>
Ant标签详解--基础操作 g21121 ant
Ant的一些核心概念： build.xml：构建文件是以XML 文件来描述的，默认构建文件名为build.xml。 project：每个构建文
[简单]代码片段_数据合并 53873039oycg 代码
合并规则:删除家长phone为空的记录,若一个家长对应多个孩子,保留一条家长记录,家长id修改为phone,对应关系也要修改。代码如下:
java 通信技术云端月影 Java 远程通信技术
在分布式服务框架中，一个最基础的问题就是远程服务是怎么通讯的，在Java领域中有很多可实现远程通讯的技术，例如：RMI、MINA、ESB、Burlap、Hessian、SOAP、EJB和JMS等，这些名词之间到底是些什么关系呢，它们背后到底是基于什么原理实现的呢，了解这些是实现分布式服务框架的基础知识，而如果在性能上有高的要求的话，那深入了解这些技术背后的机制就是必须的了，在这篇blog中我们将来
string与StringBuilder 性能差距到底有多大 aijuans
之前也看过一些对string与StringBuilder的性能分析，总感觉这个应该对整体性能不会产生多大的影响，所以就一直没有关注这块！由于学程序初期最先接触的string拼接，所以就一直没改变过自己的习惯！
今天碰到 java.util.ConcurrentModificationException 异常 antonyup_2006 java 多线程工作 IBM
今天改bug，其中有个实现是要对map进行循环，然后有删除操作，代码如下： Iterator<ListItem> iter = ItemMap.keySet.iterator(); while(iter.hasNext()){ ListItem it = iter.next(); //...一些逻辑操作 ItemMap.remove(it); } 结果运行报Con
PL/SQL的类型和JDBC操作数据库百合不是茶 PL/SQL表标量类型游标 PL/SQL记录
PL/SQL的标量类型: 字符,数字,时间,布尔,%type五中类型的 --标量：数据库中预定义类型的变量 --定义一个变长字符串 v_ename varchar2(10); --定义一个小数,范围 -9999.99~9999.99 v_sal number(6,2); --定义一个小数并给一个初始值为5.4 :=是pl/sql的赋值号
Mockito：一个强大的用于 Java 开发的模拟测试框架实例 bijian1013 mockito 单元测试
Mockito框架： Mockito是一个基于MIT协议的开源java测试框架。 Mockito区别于其他模拟框架的地方主要是允许开发者在没有建立“预期”时验证被测系统的行为。对于mock对象的一个评价是测试系统的测
精通Oracle10编程SQL(10)处理例外 bijian1013 oracle 数据库 plsql
/* *处理例外 */ --例外简介 --处理例外-传递例外 declare v_ename emp.ename%TYPE; begin SELECT ename INTO v_ename FROM emp where empno=&no; dbms_output.put_line('雇员名：'||v_ename); exceptio
【Java】Java执行远程机器上Linux命令 bit1129 linux命令
Java使用ethz通过ssh2执行远程机器Linux上命令，封装定义Linux机器的环境信息 package com.tom; import java.io.File; public class Env { private String hostaddr; //Linux机器的IP地址 private Integer po
java通信之Socket通信基础白糖_ java socket 网络协议
正处于网络环境下的两个程序，它们之间通过一个交互的连接来实现数据通信。每一个连接的通信端叫做一个Socket。一个完整的Socket通信程序应该包含以下几个步骤： ①创建Socket； ②打开连接到Socket的输入输出流； ④按照一定的协议对Socket进行读写操作； ④关闭Socket。 Socket通信分两部分：服务器端和客户端。服务器端必须优先启动，然后等待soc
angular.bind boyitech AngularJS angular.bind AngularJS API bind
angular.bind 描述：上下文，函数以及参数动态绑定，返回值为绑定之后的函数. 其中args是可选的动态参数，self在fn中使用this调用。使用方法： angular.bind(se
java-13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 bylijinnan java
import java.util.ArrayList; import java.util.List; public class KickOutBadGuys { /** * 题目：13个坏人和13个好人站成一圈，数到7就从圈里面踢出一个来，要求把所有坏人都给踢出来，所有好人都留在圈里。请找出初始时坏人站的位置。 * Maybe you can find out
Redis.conf配置文件及相关项说明（自查备用） Kai_Ge redis
Redis.conf配置文件及相关项说明 # Redis configuration file example # Note on units: when memory size is needed, it is possible to specifiy # it in the usual form of 1k 5GB 4M and so forth: #
[强人工智能]实现大规模拓扑分析是实现强人工智能的前奏 comsci 人工智能
真不好意思,各位朋友...博客再次更新... 节点数量太少,网络的分析和处理能力肯定不足,在面对机器人控制的需求方面,显得力不从心.... 但是,节点数太多,对拓扑数据处理的要求又很高,设计目标也很高,实现起来难度颇大...
记录一些常用的函数 dai_lm java
public static String convertInputStreamToString(InputStream is) { StringBuilder result = new StringBuilder(); if (is != null) try { InputStreamReader inputReader = new InputStreamRead
Hadoop中小规模集群的并行计算缺陷 datamachine mapreduce hadoop 并行计算
注：写这篇文章的初衷是因为Hadoop炒得有点太热，很多用户现有数据规模并不适用于Hadoop，但迫于扩容压力和去IOE（Hadoop的廉价扩展的确非常有吸引力）而尝试。尝试永远是件正确的事儿，但有时候不用太突进，可以调优或调需求，发挥现有系统的最大效用为上策。 -----------------------------------------------------------------
小学4年级英语单词背诵第二课 dcj3sjt126com english word
egg 蛋 twenty 二十 any 任何 well 健康的，好 twelve 十二 farm 农场 every 每一个 back 向后，回 fast 快速的 whose 谁的 much 许多 flower 花 watch 手表 very 非常，很 sport 运动 Chinese 中国的
自己实践了github的webhooks, linux上面的权限需要注意 dcj3sjt126com github webhook
环境, 阿里云服务器 1. 本地创建项目, push到github服务器上面 2. 生成www用户的密钥 sudo -u www ssh-keygen -t rsa -C "[email protected]" 3. 将密钥添加到github帐号的SSH_KEYS里面 3. 用www用户执行克隆, 源使
Java冒泡排序蕃薯耀冒泡排序 Java冒泡排序 Java排序
冒泡排序 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 10:40:14 星期二 http://fanshuyao.iteye.com/
Excle读取数据转换为实体List【基于apache-poi】 hanqunfeng apache
1.依赖apache-poi 2.支持xls和xlsx 3.支持按属性名称绑定数据值 4.支持从指定行、列开始读取 5.支持同时读取多个sheet 6.具体使用方式参见org.cpframework.utils.excelreader.CP_ExcelReaderUtilTest.java 比如： Str
3个处于草稿阶段的Javascript API介绍 jackyrong JavaScript
原文： http://www.sitepoint.com/3-new-javascript-apis-may-want-follow/?utm_source=html5weekly&utm_medium=email 本文中，介绍3个仍然处于草稿阶段，但应该值得关注的Javascript API. 1) Web Alarm API &
6个创建Web应用程序的高效PHP框架 lampcy Web 框架 PHP
以下是创建Web应用程序的PHP框架，有coder bay网站整理推荐： 1. CakePHP CakePHP是一个PHP快速开发框架，它提供了一个用于开发、维护和部署应用程序的可扩展体系。CakePHP使用了众所周知的设计模式，如MVC和ORM，降低了开发成本，并减少了开发人员写代码的工作量。 2. CodeIgniter CodeIgniter是一个非常小且功能强大的PHP框架，适合需
评"救市后中国股市新乱象泛起"谣言 nannan408
首先来看百度百家一位易姓作者的新闻：三个多星期来股市持续暴跌，跌得投资者及上市公司都处于极度的恐慌和焦虑中，都要寻找自保及规避风险的方式。面对股市之危机，政府突然进入市场救市，希望以此来重建市场信心，以此来扭转股市持续暴跌的预期。而政府进入市场后，由于市场运作方式发生了巨大变化，投资者及上市公司为了自保及为了应对这种变化，中国股市新的乱象也自然产生。首先，中国股市这两天
页面全屏遮罩的实现方式 Rainbow702 html css 遮罩 mask
之前做了一个页面，在点击了某个按钮之后，要求页面出现一个全屏遮罩，一开始使用了position:absolute来实现的。当时因为画面大小是固定的，不可以resize的，所以，没有发现问题。最近用了同样的做法做了一个遮罩，但是画面是可以进行resize的，所以就发现了一个问题，当画面被reisze到浏览器出现了滚动条的时候，就发现，用absolute 的做法是有问题的。后来改成fixed定位就
关于angularjs的点滴 tntxia AngularJS
angular是一个新兴的JS框架，和以往的框架不同的事，Angularjs更注重于js的建模，管理，同时也提供大量的组件帮助用户组建商业化程序，是一种值得研究的JS框架。 Angularjs使我们可以使用MVC的模式来写JS。Angularjs现在由谷歌来维护。这里我们来简单的探讨一下它的应用。首先使用Angularjs我
Nutz--->>反复新建ioc容器的后果 xiaoxiao1992428 DAO mvc IOC nutz
问题： public class DaoZ { public static Dao dao() { // 每当需要使用dao的时候就取一次 Ioc ioc = new NutIoc(new JsonLoader("dao.js")); return ioc.get(