【每日论文阅读】图像修复模型

bad case

https://huggingface.co/runwayml/stable-diffusion-inpainting/discussions/31

论文

MAT

论文:MAT: Mask-Aware Transformer for Large Hole Image Inpainting

代码:

摘要:

RePaint

论文:RePaint: Inpainting using Denoising Diffusion Probabilistic Models

代码:

摘要:训练mask固定,域外适应不行;只通过使用给定的图像信息对未屏蔽区域进行采样来改变反向扩散迭代

论文:

代码:

摘要:

Large-Hole Image Completion

论文:A Structure-Guided Diffusion Model for Large-Hole Image Completion

代码:

摘要:使用潜在的结构增强diffusion的修复效果

SDM

论文:SDM: Spatial Diffusion Model for Large Hole Image Inpainting

代码:https://github.com/fenglinglwb/SDM

https://ar5iv.labs.arxiv.org/html/2212.02963

摘要:生成对抗网络(GAN)在图像修复方面取得了巨大成功,但在处理大面积缺失区域方面仍然存在困难。相比之下,迭代算法,例如自回归和去噪扩散模型,必须部署大量计算资源才能获得良好的效果。为了克服各自的限制,我们提出了一种新颖的空间扩散模型(SDM),它使用几次迭代逐渐将信息像素传递到整个图像,从而大大提高了推理效率。此外,由于提出的解耦概率建模和空间扩散方案,我们的方法实现了高质量的大孔完井。在多个基准测试中,我们实现了新的最先进的性能。

论文:Learned representation-guided diffusion models for large-image generation

代码:

摘要:为了合成高保真样本,扩散模型通常需要辅助数据来指导生成过程。然而,获得组织病理学和卫星图像等专业领域所需的艰苦的补丁级注释工作是不切实际的;它通常由领域专家执行,涉及数亿个补丁。现代自我监督学习(SSL)表示编码丰富的语义和视觉信息。在本文中,我们假设此类表示具有足够的表现力,可以充当细粒度人类标签的代理。我们引入了一种新颖的方法,可以训练基于 SSL 嵌入的扩散模型。我们的扩散模型成功地将这些特征投射回高质量的组织病理学和遥感图像。此外,我们通过组装从 SSL 嵌入推断出的空间一致的补丁来构建更大的图像,从而保留远程依赖性。通过生成真实图像的变体来增强真实数据,可以提高补丁级和更大的图像规模分类任务的下游分类器准确性。我们的模型即使在训练期间未遇到的数据集上也是有效的,这证明了它们的稳健性和普遍性。从学习的嵌入生成图像与嵌入的来源无关。用于生成大图像的 SSL 嵌入可以从参考图像中提取,也可以从以任何相关模态(例如类标签、文本、基因组数据)为条件的辅助模型中采样。作为概念证明,我们引入了文本到大图像合成范例,在该范例中,我们成功地从文本描述中合成了大型病理学和卫星图像。

GraphMaker

论文:GraphMaker:扩散模型可以生成大型属性图吗?

代码:具有节点属性的大规模图是现实场景中的基础,例如社交和金融网络。模拟现实世界的合成图的生成在图机器学习中至关重要,有助于在原始数据无法共享时理解网络演化和保留数据效用。传统的图生成模型受到模型容量有限的影响。扩散模型的最新发展已在图结构生成或具有属性的小分子图生成方面显示出前景。然而,由于捕获复杂模式和可扩展性方面的挑战,它们对大型属性图的适用性仍未得到解决。本文介绍了 GraphMaker,这是一种专为生成大型属性图而定制的新型扩散模型。我们研究耦合或解耦图结构和节点属性生成的扩散模型,以解决它们复杂的相关性。我们还采用节点级调节并采用小批量策略来实现可扩展性。我们进一步提出了一种新的评估流程,使用在生成的合成图上训练并在原始图上进行测试的模型来评估合成数据的质量。对现实世界数据集的实证评估展示了 GraphMaker 在生成有利于下游任务的真实且多样化的大属性图方面的优越性。

摘要:

论文:基于潜在扩散模型的自然对抗补丁生成方法

代码:

摘要:最近,一些研究表明深度神经网络容易受到对抗性攻击,训练有素的样本或补丁可以用来欺骗神经网络检测器或人类视觉感知。然而,这些对抗性斑块的图案引人注目且不寻常,缺乏伪装,很容易在现实世界中引起怀疑。为了解决这个问题,本文提出了一种称为潜在扩散补丁(LDP)的新型对抗性补丁方法,其中首先设计预训练编码器将自然图像压缩到具有关键特征的特征空间中。然后使用上述特征空间训练扩散模型。最后,利用图像去噪技术探索预训练扩散模型的潜在空间。它通过扩散模型强大的自然能力来完善补丁和图像,使它们更容易被人类视觉系统接受。数字世界和物理世界的实验结果表明,LDP 的视觉主观性得分达到 87.3%,同时仍然保持有效的攻击能力。

你可能感兴趣的:(论文阅读)