Bolt3D – 3D 场景生成的革新之力

Bolt3D 是什么

Bolt3D 是由谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术,采用潜在扩散模型架构。它可在单个 GPU 上,于 6.25 秒内直接从一张或多张图像中采样出完整的 3D 场景表示,将传统数小时甚至数天的 3D 建模过程压缩到秒级,为游戏开发、虚拟现实等领域带来变革。

核心功能

  • 极速生成 :作为前馈式生成方法,Bolt3D 能直接从单张或多张输入图像中采样出 3D 场景表示,仅需 6.25 秒即可在单个 GPU 上完成生成。
  • 多视图兼容与泛化 :支持不同数量的输入图像,从单视图到多视图均可处理,并能生成未被观测区域的内容,展现出良好的泛化能力。
  • 高保真输出 :以高斯溅射技术存储数据,通过布置在二维网格中的三维高斯函数构建三维场景,每个函数记录位置、颜色、透明度和空间信息,生成的 3D 场景质量高。
  • 实时交互 :生成场景可直接在浏览器中查看和渲染,为用户带来便捷的交互体验。

技术原理

  • 多视角扩散模型 :联合建模图像和 3D 点图,学习目标图像与点图的联合分布,以单张或多张图像及其相机位姿作为输入,捕捉目标图像、点图及源视图点图之间的联合分布特性。
  • 几何 VAE 编码 :将一个视图的点图和相机射线图联合编码为几何潜在特征,通过最小化标准 VAE 目标函数与特定设计的几何损失函数的组合,实现对点图的高精度压缩。
  • 高斯头部模型 :基于给定的相机参数以及生成的图像和点图信息,训练多视图前馈高斯头部模型,输出经过优化的三维高斯分布参数,包括位置、尺度和朝向等关键属性。
  • 三阶段训练 :依次训练几何 VAE、高斯头部和潜在扩散模型,构建完整的 3D 场景生成管道。
  • 大规模数据集 :应用 SOTA 密集重建技术生成多视图一致的训练数据,为模型训练提供有力支持。

支持平台

Bolt3D 支持英伟达 H100 等图形处理单元,在 Windows、Linux 等操作系统上均可运行,对硬件有一定要求,需要较好的显卡性能以支持其快速运算和生成。

团队介绍

Bolt3D 由谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合开发。牛津大学 VGG 团队在计算机视觉领域具有深厚的学术积累和研究实力,谷歌 DeepMind 作为人工智能领域的领军者,为项目提供了强大的技术支持和资源保障,双方的合作确保了 Bolt3D 在技术创新和应用实践方面的领先地位。

项目资源

业务场景

  • 游戏开发 :可帮助游戏厂商快速生成游戏场景,提高开发效率,降低成本,已有游戏厂使用其日更场景。
  • 虚拟现实与增强现实 :为虚拟现实和增强现实应用提供快速、高效的 3D 场景生成解决方案,丰富应用场景,提升用户体验。
  • 建筑设计 :建筑师可利用其实时修改方案,快速生成建筑的 3D 模型和场景,提高设计效率和质量,更好地展示设计效果。
  • 影视制作 :在影视特效制作等方面具有广阔应用前景,可快速生成虚拟场景和特效元素,提升制作效率和创意空间。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注