Scenethesis 是英伟达推出的创新框架,能够根据文本描述自动生成交互式 3D 场景,结合了大型语言模型和视觉感知技术,通过多阶段流程实现高效生成。

核心功能

  • 文本生成 3D 场景 :用户输入文本描述,AI 即可自动生成对应的 3D 场景,极大地简化了 3D 内容创作流程。
  • 物理合理性 :生成的场景物体不会相互穿透,能稳定放置,符合物理规则,确保了场景的真实性和可行性。
  • 用户交互 :用户可以调整物体位置、大小等,场景实时更新,提供了灵活的创作体验。
  • 多样化场景与物体库 :支持多种室内外场景,包含丰富的 3D 模型供选择,满足不同用户的创作需求。
  • 场景验证 :自动检查场景质量,必要时重新生成优化,确保输出高质量的 3D 场景。

技术原理

  • 粗略布局规划(LLM 模块) :用户输入文本描述后,LLM 对文本进行解析,理解场景的主题和关键元素,从预定义的 3D 模型库中选择与场景描述相关的物体,生成一个粗略的布局计划,为后续的视觉细化提供基础。
  • 视觉细化(视觉模块) :根据 LLM 生成的提示,基于扩散模型等技术生成高精度的场景图像作为参考,利用预训练的视觉基础模型对生成的图像进行分割和深度估计,提取场景图,包括物体的 3D 边界框和空间关系,并从 3D 模型库中检索与场景描述匹配的 3D 物体模型。
  • 物理优化(物理优化模块) :基于语义对应匹配技术对 3D 模型和图像指导中的物体进行姿态对齐,确保物体的位置、尺寸和方向与图像指导一致,同时利用有符号距离场技术检测物体之间的碰撞,调整物体的位置和尺寸,避免碰撞,保证物理合理性。
  • 场景验证(场景验证模块) :基于预训练的语言模型评估生成场景的空间连贯性,确保物体的位置和关系符合常识。如果评估结果不满足要求,系统将触发重新规划和优化过程,直到生成的场景达到高质量标准。

支持平台

Scenethesis 目前主要在英伟达的平台上运行和展示,其官方网站为https://research.nvidia.com/labs/dir/scenethesis/,相关的 arXiv 技术论文可在https://arxiv.org/pdf/2505.02836查看。

团队介绍

Scenethesis 由英伟达研究院的研究团队开发,该团队在计算机图形学、人工智能等领域拥有深厚的技术积累和丰富的研究经验,致力于推动 3D 场景生成技术的发展和应用。

业务场景

  • 虚拟现实(VR)/ 增强现实(AR) :创建沉浸式虚拟环境,如虚拟旅游或展厅,为用户带来身临其境的体验。
  • 游戏开发 :快速生成游戏关卡和虚拟世界,提高开发效率,缩短游戏制作周期。
  • 具身智能 :为 AI 训练提供逼真的虚拟场景,如家庭环境,帮助 AI 更好地理解和适应现实世界。
  • 虚拟内容创作 :生成电影、动画或广告的场景原型,加速创作流程,激发创作灵感。
  • 教育和培训 :模拟实验室或培训场景,用于教学和技能练习,提供安全、高效的实践环境。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注