Hi3DGen – 革新性高保真3D几何生成框架
一、Hi3DGen是什么
Hi3DGen是由香港中文大学(深圳)、字节跳动和清华大学联合研发的高保真3D几何生成框架。它创新性地采用法线图作为中间表示,将图像到法线估计、法线到几何学习以及3D数据合成管道相结合,实现了从单张2D图像到细节丰富的高质量3D模型的高效转换。与传统方法相比,Hi3DGen在生成模型的几何保真度和细节丰富度方面均有显著提升,为3D建模领域带来了新的突破。
二、核心功能
- 2D到3D模型转换 :能够将单张2D图像高效转换为具有丰富细节的三维几何模型,支持复杂几何结构的重建。
- 图像法线估计 :通过噪声注入和双流训练,有效分离图像的低频和高频信息,实现可泛化、稳定且锐利的法线估计,为后续的3D几何生成提供高质量的中间表示。
- 法线驱动几何生成 :基于法线图的正则化机制,结合潜在扩散模型,显著提升了三维模型重建的保真度,使生成的3D模型能保留更多的细节。
- 3D数据合成 :提供了一套完整的3D数据集构建工具链,支持高效高质量的训练数据准备,构建了高质量的3D数据集DetailVerse,为模型训练提供充足的数据支持。
三、技术原理
Hi3DGen包含三个关键组件:图像到法线估计器、法线到几何学习方法和3D数据合成管道。其采用两阶段生成过程:
- 基础多视角生成 :利用预训练的视频扩散模型,结合相机姿态信息进行微调,将单视角图像转换为低分辨率的3D感知图像序列(轨道视频)。
- 3D感知多视角细化 :将低分辨率多视角图像输入到3D感知视频到视频细化器,提升图像分辨率和细节纹理。
此外,Hi3DGen还运用3D高斯散射(3DGS)从生成的高分辨率多视角图像中学习隐式3D模型,并通过3DGS渲染额外的插值视图;以及基于SDF的重建方法,从增强的密集视图中提取高质量的3D网格。
四、支持平台
Hi3DGen目前支持Linux和MacOS系统,其开发语言为Python,采用的深度学习框架是PyTorch。
五、团队介绍
Hi3DGen由香港中文大学(深圳)、字节跳动和清华大学的研究人员共同研发。研发团队汇聚了来自学界和业界的顶尖人才,他们在3D几何生成、深度学习等领域拥有深厚的专业知识和丰富的研究经验,致力于推动AI技术在3D建模领域的应用和发展。
六、项目资源
- 官网 :https://stable-x.github.io/Hi3DGen/
- 源码 :https://github.com/Stable-X/Hi3DGen
- 论文 :https://stable-x.github.io/Hi3DGen/hi3dgen_paper.pdf
七、业务场景
- 影视特效 :Hi3DGen在数字人类、毛发、衣物和扫描等复杂几何生成的任务上表现出色,能够为电影制作提供高质量的虚拟角色和场景建模,大大提高了制作效率和模型质量。
- 工业设计 :支持复杂产品的逆向工程和数字化改造,从单张照片快速重建物体或人物的三维模型,助力工业设计流程的优化和创新。
- 文化遗产保护 :为文物修复和数字化保存提供了新的技术手段,能够精确地重现文物的复杂纹理和立体结构,有助于文化遗产的传承和保护。
- 医学影像分析 :从二维医学图像生成高精度的三维模型,辅助医生进行诊断和治疗方案制定,具有重要的临床应用价值。
- 虚拟现实 :为VR/AR应用提供高质量的三维内容支持,能够快速地将2D图片转为高质量3D模型,适用于动画、游戏和电商等领域,增强了虚拟现实体验的真实感和沉浸感。