Step1X-3D开源模型论文速读:面向高保真可控纹理3D资产生成

Step1X-3D: Towards High-Fidelity and Controllable Generation of Textured 3D Assets

一、研究背景

近年来,生成式人工智能技术(GAI)在文本、图像、音频和视频领域取得了显著进展,但 3D 生成技术相对落后。主要挑战在于数据稀缺、算法限制和生态系统碎片化。

  • 数据稀缺 :高质量的 3D 数据集数量有限,例如 ShapeNet 包含约 51K 样本,Objaverse 包含 800K 样本,而 Objaverse-XL 虽有 10.2M 样本,但数据质量参差不齐。

  • 算法复杂度 :3D 表示中几何和纹理是分离的,质量评估比其他领域更难。

  • 生态系统不完善 :开源和专有解决方案之间的差距不断加大,如开源模型 Trellis 因训练数据集规模小而泛化能力有限,一些先进模型仅提供预训练权重而无训练代码,限制了微调。

二、研究方法

为了解决这些挑战,作者提出了 Step1X-3D,一个开放框架,通过以下方式解决数据和算法问题:

  • 数据处理管道 :处理超过 5M 资产,生成一个包含 2M 高质量数据集,具有标准化的几何和纹理属性。从公共数据集中提取了约 800K 资产将公开发布。

  • 两阶段 3D 原生架构 :第一阶段使用混合 VAE-DiT 几何生成器,采用基于感知器的潜在编码与锐边采样来保留细节,生成截断有符号距离函数(TSDF)表示;第二阶段是基于扩散的纹理合成模块,通过几何条件和潜在空间同步确保跨视图一致性。

  • 模型开源 :将完全开源模型、训练代码和适配模块。

(一)几何生成阶段

  • 数据处理 :首先过滤低质量纹理、单表面、小物体、透明物体、错误法线和特定名称及网格类型的模型。然后将非 watertight 网格转换为 watertight 表示,统一采样表面点及其法线。

  • 模型架构 :采用混合 3D VAE-DiT 扩散模型生成 TSDF 表示,通过可扩展的感知器基编码器 - 解码器架构进行解码。为了保留高频几何细节,引入了锐边采样和双交叉注意力机制。

  • 扩散模型 :改编自 FLUX 的 MMDiT 架构,修改其变换器层以处理 1D 潜在空间。这种 VAE - 扩散混合设计便于将 2D 参数高效适配方法(如 LoRA)直接转移到 3D 网格合成中。

(二)纹理合成阶段

  • 几何后处理 :使用 Trimesh 工具包对几何输出进行后处理,包括验证 watertight 性、填充孔洞、重网格化和应用拉普拉斯表面平滑约束,最后通过 xAtlas 生成优化的 UV 坐标。

  • 纹理数据准备 :从清理后的 Objaverse 数据集中进一步筛选 30K 个 3D 资产,使用 blender 渲染每个对象的六个视图及其相应的漫反射、法线图和位置图。

  • 多视图图像生成 :使用预训练的 MV - Adapter 作为骨干网络,结合几何引导(法线图和位置图)生成多视图图像,并在纹理空间同步多视图图像。

  • 纹理烘烤 :对多视图图像进行上采样并逆投影到纹理空间,使用连续性感知的纹理修复进行迭代优化,解决拓扑歧义并保留高频纹理细节。

三、实验

  • 几何生成实验 :展示了基于单输入图像生成 3D 几何的能力,生成的多视图法线图与输入图像保持强相似性,并为遮挡区域重建了合理的几何细节。

  • 纹理生成实验 :生成的纹理在各种输入风格中保持风格一致性,同时忠于输入图像的纹理细节。对输入图像的遮挡区域实现了合理的视图补全,具有出色的多视图一致性和精确的几何 - 纹理对齐。

  • 高可控性 3D 生成实验 :通过 LoRA 微调实现对几何形状的灵活控制,包括对称性操控和层级几何细节调整。结果表明生成的 3D 物体能够一致地遵循各自的控制指令。

  • 与 SOTA 方法对比实验 :在几何和纹理的定量评估中,Step1X-3D 在 CLIP-Score 上取得最高分,多个几何 - 语义匹配指标排名第二。用户研究中,Step1X-3D 的平均用户偏好得分与当前最佳方法相当。视觉比较显示 Step1X-3D 在生成几何和纹理方面表现与最佳方法相当或更优。

四、结论与展望

Step1X-3D 通过严格的 2M 资产数据处理和混合 VAE-DiT 架构,实现了高保真度、可控的纹理化 3D 资产生成,并支持从 2D 到 3D 控制技术的直接转移。作者计划开源模型、训练代码和训练数据(不包括自行收集的资产),以弥合专有研究与开源研究之间的差距,促进社区朝着生产级 3D 生成技术的进步。

五、局限性

目前,Step1X-3D 将网格转换为 TSDF 时使用的是 2563 网格分辨率,未来计划增加网格分辨率以实现更精确的几何细节。此外,当前纹理组件仅限于生成漫反射纹理,未来计划扩展该流程以支持输入图像重新照明和基于物理的渲染(PBR)材质纹理生成。

Step1X-3D开源模型论文速读:面向高保真可控纹理3D资产生成_第1张图片

你可能感兴趣的:(前沿,3d,人工智能,大模型,生成模型,开源)