Bolt3D – 3D 场景生成的革新之力

未分类 2025-06-23 0:33

Bolt3D 是什么

Bolt3D 是由谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合推出的新型 3D 场景生成技术，采用潜在扩散模型架构。它可在单个 GPU 上，于 6.25 秒内直接从一张或多张图像中采样出完整的 3D 场景表示，将传统数小时甚至数天的 3D 建模过程压缩到秒级，为游戏开发、虚拟现实等领域带来变革。

核心功能

极速生成 ：作为前馈式生成方法，Bolt3D 能直接从单张或多张输入图像中采样出 3D 场景表示，仅需 6.25 秒即可在单个 GPU 上完成生成。
多视图兼容与泛化 ：支持不同数量的输入图像，从单视图到多视图均可处理，并能生成未被观测区域的内容，展现出良好的泛化能力。
高保真输出 ：以高斯溅射技术存储数据，通过布置在二维网格中的三维高斯函数构建三维场景，每个函数记录位置、颜色、透明度和空间信息，生成的 3D 场景质量高。
实时交互 ：生成场景可直接在浏览器中查看和渲染，为用户带来便捷的交互体验。

技术原理

多视角扩散模型 ：联合建模图像和 3D 点图，学习目标图像与点图的联合分布，以单张或多张图像及其相机位姿作为输入，捕捉目标图像、点图及源视图点图之间的联合分布特性。
几何 VAE 编码 ：将一个视图的点图和相机射线图联合编码为几何潜在特征，通过最小化标准 VAE 目标函数与特定设计的几何损失函数的组合，实现对点图的高精度压缩。
高斯头部模型 ：基于给定的相机参数以及生成的图像和点图信息，训练多视图前馈高斯头部模型，输出经过优化的三维高斯分布参数，包括位置、尺度和朝向等关键属性。
三阶段训练 ：依次训练几何 VAE、高斯头部和潜在扩散模型，构建完整的 3D 场景生成管道。
大规模数据集 ：应用 SOTA 密集重建技术生成多视图一致的训练数据，为模型训练提供有力支持。

支持平台

Bolt3D 支持英伟达 H100 等图形处理单元，在 Windows、Linux 等操作系统上均可运行，对硬件有一定要求，需要较好的显卡性能以支持其快速运算和生成。

团队介绍

Bolt3D 由谷歌研究院、牛津大学 VGG 团队和谷歌 DeepMind 联合开发。牛津大学 VGG 团队在计算机视觉领域具有深厚的学术积累和研究实力，谷歌 DeepMind 作为人工智能领域的领军者，为项目提供了强大的技术支持和资源保障，双方的合作确保了 Bolt3D 在技术创新和应用实践方面的领先地位。

项目资源

项目官网 ：https://szymanowiczs.github.io/bolt3d
arXiv 技术论文 ：https://arxiv.org/pdf/2503.14445

业务场景

游戏开发 ：可帮助游戏厂商快速生成游戏场景，提高开发效率，降低成本，已有游戏厂使用其日更场景。
虚拟现实与增强现实 ：为虚拟现实和增强现实应用提供快速、高效的 3D 场景生成解决方案，丰富应用场景，提升用户体验。
建筑设计 ：建筑师可利用其实时修改方案，快速生成建筑的 3D 模型和场景，提高设计效率和质量，更好地展示设计效果。
影视制作 ：在影视特效制作等方面具有广阔应用前景，可快速生成虚拟场景和特效元素，提升制作效率和创意空间。