TripoSR – 开源 3D 生成模型的革新之力

TripoSR 是什么

TripoSR 是由 Stability AI 和 VAST 联合推出的开源 3D 生成模型,可在不到 0.5 秒内从单张 2D 图像快速生成高质量的 3D 模型。它基于 Transformer 架构,采用大型重建模型(LRM)原理,对数据处理、模型设计和训练技术等进行了多项改进,在多个公共数据集上的表现优于其他开源替代方案,且支持在没有 GPU 的设备上运行,极大降低了使用门槛,采用 MIT 许可证,支持商业、个人和研究使用。

核心功能

  • 单张图片生成 3D 对象 :能从用户提供的单张 2D 图片中自动创建三维模型,会识别图片中的对象、提取其形状和特征,构建相应的 3D 几何结构。
  • 快速转换 :在 NVIDIA A100 GPU 上,能在不到 0.5 秒的时间内生成高质量的 3D 模型,大大减少了传统 3D 建模所需的时间和资源。
  • 高质量渲染 :注重输出的 3D 模型质量,能确保模型的细节和真实感。
  • 适应多种图像 :能处理各种类型的 2D 图片,包括静态图像和具有一定复杂性的图像。

技术原理

  • 架构设计 :基于 LRM(Large Reconstruction Model)改进,其图像编码器使用预训练的视觉变换器模型 DINOv1,将输入的 RGB 图像投影到一组潜在向量中,编码图像的全局和局部特征;图像到三平面解码器将潜在向量转换为三平面 - NeRF 表示, suitable for 表示复杂形状和纹理的物体;基于三平面的神经辐射场(Triplane-based NeRF)由多层感知机(MLP)堆叠而成,预测空间中 3D 点的颜色和密度,学习物体表面的详细形状和纹理信息。
  • 技术算法 :基于 Transformer 架构,特别是自注意力和交叉注意力层,处理和学习图像的全局和局部特征。使用神经辐射场(NeRF)模型预测 3D 空间中点的颜色和密度,实现对物体形状和纹理的精细建模。训练过程中采用重要性采样策略,从原始高分辨率图像中渲染 128×128 大小的随机补丁来进行训练,确保物体表面细节的忠实重建,平衡计算效率和重建粒度。
  • 数据处理方法 :通过选择 Objaverse 数据集的精心策划的子集,增强训练数据的质量。采用多种数据渲染技术,模拟真实世界图像的分布,增强模型的泛化能力。对三平面 NeRF 表示中的通道配置进行了优化,训练阶段使用更大批量大小和更高分辨率,推理期间保持较低的内存使用率。
  • 训练技术 :训练过程中加入掩码损失函数,减少 “漂浮物” 伪影并提高重建的保真度。完全依赖于渲染损失进行监督,为了解决高分辨率渲染和监督导致的计算和 GPU 内存负载问题,从原始 512×512 分辨率图像中渲染 128×128 大小的随机补丁。训练中使用 AdamW 优化器,采用余弦退火学习率调度器,还使用了 LPIPS 损失和掩码损失的加权组合,进一步提高重建质量。

支持平台

TripoSR 支持在多种设备上运行,包括没有 GPU 的设备,如 MacBook 等,此外,在 NVIDIA A100 GPU 上运行时性能表现尤为出色, inference speed 约为 0.5 秒。

团队介绍

TripoSR 背后的开发团队由 Stability AI 与 VAST 组成。Stability AI 一直以来在生成 AI 领域表现出色,其开源文化和技术创新为整个 AI 行业带来了诸多突破。而 VAST 则专注于 3D 生成领域,深耕计算机视觉和图像生成技术,积累了丰富的行业经验。两家公司联手,基于其强大的技术积累和创新精神,共同打造了这一革命性工具。

项目资源

业务场景

  • 游戏开发 :可快速生成游戏中的 3D 资产,减少开发者手动建模的工作量,加快游戏开发进度,使开发者能够更专注于游戏的玩法设计和剧情创作等核心部分。
  • 影视制作 :能够帮助影视制作团队快速创建 3D 场景和道具模型,提高制作效率,尤其在需要大量特效和虚拟场景的项目中,可节省大量的时间和成本。
  • 虚拟现实(VR)与增强现实(AR) :为 VR 和 AR 应用提供更加真实、细致的 3D 世界构建,增强用户的沉浸感,可用于创建虚拟展厅、教育培训等多方面的 VR/AR 内容。
  • 3D 打印 :可将 2D 图像快速转换为适用于 3D 打印的模型,降低了 3D 打印的门槛,使更多的创意能够通过 3D 打印技术转化为实物,为产品设计和原型制作等带来便利。
  • 设计和艺术创作 :帮助艺术家和设计师降低 3D 建模的技术门槛,使他们可以更专注于创意的发挥,快速地将创意想法以 3D 模型的形式展现出来,提升设计和创作的效率。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注