上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!

本文首发于微信公众号 CVHub,未经授权不得以任何形式售卖或私自转载到其它平台,仅供学习,违者必究!

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第1张图片

Title: Make-It-3D: High-Fidelity 3D Creation from A Single Image with Diffusion Prior

Paper: https://arxiv.org/pdf/2303.14184.pdf

Code: https://make-it-3d.github.io/

背景

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第2张图片

人类具有一种与生俱来的能力,可以轻松地想象3D几何和虚构出从不同角度看物体的外观,这基于他们对世界的先验知识

在本文中,研究者的目标是实现类似的目标:从一个真实或人工生成的单张图像中创建高保真度的3D内容。这将为艺术表达和创意开辟新的途径,例如为像Stable Diffusion这样的前沿2D生成模型创建的幻想图像带来3D效果。通过提供一种更易于访问和自动化的创建视觉上惊人的3D内容的方法,研究者希望吸引更广泛的受众加入到轻松的3D建模世界中来。

导读

本文探讨了仅使用单张图像创建高保真度3D内容的问题。这本质上是一项具有挑战性的任务,需要估计潜在的3D几何结构,并同时产生未见过的纹理。为了解决这个问题,论文利用训练好的2D扩散模型的先验知识作为3D生成的监督。论文的方法名为:Make-It-3D,采用两阶段优化pipeline:第一阶段通过在前景视图中结合参考图像的约束和新视图中的扩散先验来优化神经辐射场;第二阶段将粗略模型转化为纹理点云,并利用参考图像的高质量纹理,结合扩散先验进一步提高逼真度。大量实验证明,论文的方法在结果上显著优于先前的方法,实现了预期的重建效果和令人印象深刻的视觉质量。论文的方法是第一个尝试从单张图像为一般对象创建高质量3D内容的方法,可用于text-to-3D的创建和纹理编辑等各种应用。

贡献

论文的主要贡献总结如下:

  1. 论文提出了Make-It-3D框架,使用2D扩散模型作为3D-aware先验,从单个图像中创建高保真度的3D物体。该框架不需要多视图图像进行训练,并可应用于任何输入图像,无论是真实的还是生成的。
  2. 通过两个阶段的创建方案,Make-It-3D是首个实现普适对象高保真3D创建的工作。生成的3D模型展现出精细的几何结构和逼真的纹理,与参考图像相符。
  3. 除了图像到3D创建之外,论文的方法还能实现高质量text-to-3D创建和纹理编辑等多种应用。

方法

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第3张图片

论文利用了文本-图像生成模型和文本-图像对比模型的先验知识,通过两阶段(Coarse Stage和Refine Stage)的学习来还原高保真度的纹理和几何信息,所提出的两阶段三维学习框架如图2所示。

Coarse Stage: Single-view 3D Reconstruction

作为第一阶段,论文从单一参考图像 x x x重建一个粗糙的NeRF,以扩散先验约束新的视角。优化的目标是同时满足以下要求:

  1. 优化后的三维表示应该与输入观测x在参考视图上的渲染结果非常相似
  2. 新视图渲染应该显示与输入一致的语义,并尽可能可信
  3. 生成的3D模型应该表现出引人注目的几何形状

鉴于此,论文对参考视图周围的相机姿态进行随机采样,并对参考视图和未可见视图的渲染图像 G θ \mathcal{G}_{\theta} Gθ 施加以下约束:

Reference view per-pixel loss

优化后的三维表示应该与输入观测x在参考视图上的渲染结果非常相似,因此惩罚NeRF渲染图像和输入图像之间的像素级差异:

其中使用前景matting mask m m m来分割前景。

Diffusion prior

新视图渲染应该显示与输入一致的语义,为了解决这个问题,论文使用一个图像字幕模型,为参考图像生成详细的文本描述 y y y。有了文本提示 y y y,可以在Stable Diffusion的潜空间上执行 L SDS  \mathcal{L}_{\text {SDS }} LSDS (利用text conditioned扩散模型作为3D感知先验),度量图像和给定文本提示符之间的相似性:

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第4张图片

虽然 L SDS  \mathcal{L}_{\text {SDS }} LSDS 可以生成忠实于文本提示的3D模型,但它们并不能与参考图像完全对齐(参见图3中的baseline),因为文本提示不能捕获所有的对象细节。因此,论文额外添加一个扩散CLIP损失,记为 L CLIP-D  \mathcal{L}_{\text {CLIP-D }} LCLIP-D ,它进一步强制生成的模型来匹配参考图像:

具体来说,论文并没有同时优化 L CLIP-D  \mathcal{L}_{\text {CLIP-D }} LCLIP-D  L SDS  \mathcal{L}_{\text {SDS }} LSDS 。**论文在小timesteps使用 L CLIP-D  \mathcal{L}_{\text {CLIP-D }} LCLIP-D ,在大timesteps切换到 L SDS  \mathcal{L}_{\text {SDS }} LSDS 。**结合LSDS和LCLIP-D,论文的扩散先验确保了生成的3D模型在视觉上是吸引人的和可信的,同时也符合给定的图像(见图3)。

Depth prior

此外,模型仍然存在形状模糊,从而导致诸如凹陷面、过平面几何或深度模糊等问题(见图3)。为了解决这个问题,论文使用一个**现有的单目深度估计模型来估计输入图像的深度 d d d 。**为解释 d d d中的不准确性和尺度不匹配,论文正则化了NeRF在参考视点上的估计深度 d ( β r e f ) d\left(\beta_{\mathrm{ref}}\right) d(βref) 和单目深度 d d d 之间的negative Pearson correlation,即:

Overall training

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第5张图片

最终总的损失可以表述为 L ref  \mathcal{L}_{\text {ref }} Lref  L SDS  \mathcal{L}_{\text {SDS }} LSDS  L CLIP-D  \mathcal{L}_{\text {CLIP-D }} LCLIP-D  L depth  \mathcal{L}_{\text {depth }} Ldepth 的组合。为了稳定优化过程,论文采用了渐进式训练策略,在参考视图附近从一个狭窄的视图范围开始,在训练过程中逐渐扩大范围。通过渐进式的训练,论文可以实现一个360°的物体重建,如图4所示。

Refine Stage: Neural Texture Enhancement

在coarse stage,我们获得了一个具有合理几何形状的3D模型,但通常显示出粗糙的纹理,可能会影响整体质量。因此,需要进一步细化以获得高保真度的3D模型。

论文的主要思路是在保留粗糙模型几何形状的同时,优先进行纹理增强。我们利用新视角和参考视角中可观察到的重叠区域来将参考图像的高质量纹理映射到3D表示中。然后,论文着重于增强参考视角中被遮挡区域的纹理。为了更好地实现这一过程,论文将神经辐射场导出到显式表示形式——点云。与Marching Cube导出的噪声网格相比,点云提供了更清晰和更直接的投影。

Textured point cloud building

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第6张图片

直接从NeRF渲染多视图RGBD图像并将其提升到三维空间中的纹理点的朴素尝试会产生噪声的点云,因为不同视角下的NeRF渲染可能会给同一3D点赋予不同的RGB颜色。为了解决这个问题,论文提出了一种迭代策略来从多视图观测中构建干净的点云。论文首先根据NeRF的渲染深度 D ( β r e f ) D(\beta_{ref}) D(βref)和alpha掩模 M ( β r e f ) M(\beta_{ref}) M(βref)从参考视图 β r e f \beta_{ref} βref中构建点云,如图5所示:

其中 R R R, K K K为内外参, P \mathcal{P} P表示深度到点云的投影。

对于其余视图 β i \beta_{\mathrm{i}} βi的投影,必须避免引入与现有点重叠但颜色冲突的点。为此,论文将现有的点 V ( β r e f ) V\left(\beta_{\mathrm{ref}}\right) V(βref)投影到新的视图 β i \beta_{\mathrm{i}} βi中,以产生一个指示现有点存在位置的掩模。以这个掩模作为指导,论文只给现有的点云补充那些尚未观察到的点 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi),如图5所示。然后用粗糙NeRF渲染的粗糙纹理初始化这些看不见的点,并集成到现有的密集点云中。

Deferred point cloud rendering

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第7张图片

按照前文方法,虽然密集点云中的 V ( β r e f ) V\left(\beta_{\mathrm{ref}}\right) V(βref)已经有了从参考图像投影出来的高保真纹理,但在参考视图中被遮挡的其他点 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi)仍然遭受了来自粗糙NeRF的平滑纹理,如图6所示。为了增强其他点的纹理以增强模型的视觉效果,论文优化了 V ( β i ) V\left(\beta_{\mathrm{i}}\right) V(βi)的纹理,并使用扩散先验约束了新视图渲染。具体地,对于每个点,优化一个19维的描述符,其中前三个维度初始化为初始RGB颜色,并采用多尺度延迟渲染方案,使用一个U-Net渲染器联合优化来渲染特征图并得到最终图像:

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第8张图片

实验

Comparisons with the State of the Arts

Baselines

论文将所提方法与五个代表性baseline进行比较。

  • DietNeRF,一个少样本的NeRF模型。使用三个输入视图进行训练
  • SinNeRF,一个单视图NeRF模型
  • DreamFusion,由于它最初是基于文本提示进行条件化的,论文还使用图像重建损失在参考视图上修改它,称为DreamFusion+,以进行公平比较
  • Point-E,基于图像的点云生成模型
  • 3D-Photo,深度图像配准和修复方法
Qualitative comparison

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第9张图片

  1. 三维生成baseline DreamFusion和DreamFusion+进行比较,如图7所示,它们生成的模型未能与参考图像完全对齐,同时具有平滑的纹理。相比之下,论文的方法产生了具有精细几何和逼真纹理的高保真度三维模型
  2. 图8展示了关于新视角合成的额外比较。SinNeRF和DietNeRF由于缺乏多视角监督而难以重建复杂对象。3D-Photo则无法重建底层几何形状,并在大视角下产生明显的伪影。相比之下,论文的方法在新视角下实现了非常准确的几何形状和视觉上令人愉悦的纹理。
Quantitative comparison

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第10张图片

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第11张图片

生成的3D模型应该在参考视图上与输入图像非常相似,并且在新视角下展现与参考相一致的语义。论文使用以下指标来评估这两个方面:

  • LPIPS,评估在参考视图上的重建质量
  • 上下文距离,测量新视角渲染和参考之间的像素级相似性
  • CLIP分数,评估新视角与参考之间的语义相似性

表1和表2显示,论文的方法在参考视图和新视角质量方面明显优于baseline方法。

应用

Real scene modeling

如图9所示,Make-It-3D可以成功将复杂场景的单张照片转换为3D模型,例如建筑和风景。这使用户可以轻松地建模,而这对于一些传统的3D建模技术可能很困难。

High-quality text-to-3D generation with diversity

在先前的研究中,传统的方法常常会生成具有有限多样性和过于光滑的纹理的模型。为了实现高质量的文本到3D的转换,论文首先使用2D扩散将文本提示转换为参考图像,然后再进行基于图像的3D创建方法。如图10所示,Make-It-3D能够从文本提示生成多样化的3D模型,并展现出惊人的质量。

3D-aware texture modification

Make-It-3D可以通过在细化阶段中操纵参考图像而冻结几何结构来实现视角一致的纹理编辑。如图11所示,论文可以为生成的3D模型添加纹身并应用样式化效果。

总结

论文介绍了Make-It-3D,这是一种新颖的两阶段的方法,可以从单个图像创建高保真度的三维内容。利用扩散先验作为三维感知监督,通过扩散CLIP损失和纹理点云增强,生成的3D模型展现了符合预期的几何形状和逼真的纹理。Make-It-3D适用于一般对象,赋予了多样的迷人应用。研究者相信论文的方法在将2D内容创作的成功扩展到3D方面迈出了重要一步,为用户提供了全新的3D创作体验。

关注我们

CVHub是一家专注于计算机视觉领域的高质量知识分享平台:

  • 全站技术文章原创率达99%!
  • 每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务!
  • 涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型!

关注微信公众号,欢迎参与实时的学术&技术互动交流,领取学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!


即日起,CVHub 正式开通知识星球,首期提供以下服务:

  1. 本星球主打知识问答服务,包括但不仅限于算法原理项目实战职业规划科研思想等。
  2. 本星球秉持高质量AI技术分享,涵盖:每日优质论文速递,优质论文解读知识点总结等。
  3. 本星球力邀各行业AI大佬,提供各行业经验分享,星球内部成员可深度了解各行业学术/产业最新进展。
  4. 本星球不定期分享学术论文思路,包括但不限于Challenge分析,创新点挖掘实验配置写作经验等。
  5. 本星球提供大量 AI 岗位就业招聘资源,包括但不限于CVNLPAIGC等;同时不定期分享各类实用工具干货资料等。

上交&微软 Make-it-3D:diffusion+NeRF从单张图像生成高保真的三维物体!_第12张图片

你可能感兴趣的:(3D视觉,3d,计算机视觉,人工智能)