在这篇CVPR 2025论文《Detail-Preserving Latent Diffusion for Stable Shadow Removal》中,ϵ-prediction 和 z₀-prediction 是指扩散模型(具体为 Latent Diffusion Model, LDM)在去噪过程中的两种不同参数化方式,用于预测潜在空间中的样本。这两种方式决定了去噪器(如 U-Net)在训练和推理阶段预测的目标,直接影响模型的性能和推理稳定性。以下是对这两者的详细解释,结合论文上下文和扩散模型的通用背景:
扩散模型(Diffusion Models)通过在数据上逐步添加噪声(前向过程)并学习逆向去噪(反向过程)来生成高质量样本。在潜在扩散模型(LDM,如 Stable Diffusion)中,这些过程发生在低维潜在空间(由 VAE 编码生成)。去噪器的任务是从带噪样本 z t \mathbf{z}_t zt 预测无噪声样本或噪声本身,具体取决于参数化方式。
z t y = α t z y + 1 − α t ϵ , ϵ ∼ N ( 0 , I ) \mathbf{z}_t^{\mathbf{y}} = \sqrt{\alpha_t} \mathbf{z}^{\mathbf{y}} + \sqrt{1 - \alpha_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, I) zty=αtzy+1−αtϵ,ϵ∼N(0,I)
其中:
z y \mathbf{z}^{\mathbf{y}} zy 是无阴影图像的潜在表示(目标无噪声样本)。
z t y \mathbf{z}_t^{\mathbf{y}} zty 是时间步 t t t 的带噪样本。
α t = ∏ s = 1 t ( 1 − β s ) \alpha_t = \prod_{s=1}^t (1 - \beta_s) αt=∏s=1t(1−βs) 是噪声调度参数, β s \beta_s βs 控制每步噪声强度。
ϵ \epsilon ϵ 是高斯噪声。
反向去噪过程:去噪器(如 U-Net f θ f_\theta fθ)接收带噪样本 z t y \mathbf{z}_t^{\mathbf{y}} zty、条件输入(如阴影图像的潜在表示 z x \mathbf{z}^{\mathbf{x}} zx)和时间步 t t t,预测目标样本或噪声。
ϵ-prediction 和 z₀-prediction 是去噪器预测目标的两种不同方式。
ϵ ^ = f θ ( z t y , z x , t ) \hat{\epsilon} = f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t) ϵ^=fθ(zty,zx,t)
L t = ∥ ϵ − f θ ( z t y , z x , t ) ∥ 2 2 \mathcal{L}_t = \|\epsilon - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|_2^2 Lt=∥ϵ−fθ(zty,zx,t)∥22
在推理时,模型通过预测噪声 ϵ ^ \hat{\epsilon} ϵ^逐步从 z t y \mathbf{z}_t^{\mathbf{y}} zty 恢复无噪声样本 z 0 y \mathbf{z}_0^{\mathbf{y}} z0y,通常结合 DDIM(Denoising Diffusion Implicit Models,参考 [33])进行快速采样。
特点:
论文中的表现:
z ^ y = f θ ( z t y , z x , t ) \hat{\mathbf{z}}^{\mathbf{y}} = f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t) z^y=fθ(zty,zx,t)
L t = ∥ z y − f θ ( z t y , z x , t ) ∥ 2 2 \mathcal{L}_t = \|\mathbf{z}^{\mathbf{y}} - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)\|_2^2 Lt=∥zy−fθ(zty,zx,t)∥22
在推理时,模型直接输出预测的无噪声样本 z ^ y \hat{\mathbf{z}}^{\mathbf{y}} z^y,通过 DDIM 等方法迭代生成最终的无阴影潜在表示 z 0 y \mathbf{z}_{0}^{\mathbf{y}} z0y(公式3.2)。
特点:
论文中的表现:
特性 | ϵ-prediction | z₀-prediction |
---|---|---|
预测目标 | 高斯噪声 ϵ \epsilon ϵ | 无噪声样本 z y \mathbf{z}^{\mathbf{y}} zy |
损失函数 | ∣ ∣ ϵ − f θ ( z t y , z x , t ) ∣ ∣ 2 2 ||\epsilon - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)||_2^2 ∣∣ϵ−fθ(zty,zx,t)∣∣22 | ∣ ∣ z y − f θ ( z t y , z x , t ) ∣ ∣ 2 2 ||\mathbf{z}^{\mathbf{y}} - f_\theta(\mathbf{z}_t^{\mathbf{y}}, \mathbf{z}^{\mathbf{x}}, t)||_2^2 ∣∣zy−fθ(zty,zx,t)∣∣22 |
推理稳定性 | 方差较高(0.239,Table 1) | 方差较低(0.146,Table 1) |
生成质量 | PSNR 29.66(Table 1) | PSNR 29.95(Table 1) |
适用任务 | 高多样性生成(如图像生成) | 高保真度条件生成(如阴影去除) |
论文中的选择 | 对比实验,未采用 | 主要采用,优化第一阶段 LDM 微调 |
如果您对 ϵ-prediction 或 z₀-prediction 的实现细节、数学推导或其他相关问题有进一步疑问,请告诉我,我可以提供更深入的分析或代码相关的指导!