Hunyuan3D 2.0 – 腾讯混元 3D 生成大模型:开启高精度 3D 资产生成新纪元
Hunyuan3D 2.0 简介
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型。它采用两阶段生成流程,先生成无纹理的几何模型,再合成高分辨率纹理贴图,有效解决了 3D 生成中的精度与效率难题。
核心功能
- 高分辨率 3D 模型生成 :通过两阶段生成流程,先生成无纹理的几何模型,再为其合成纹理贴图,有效分离了形状和纹理生成的复杂性,可生成精细到发丝级细节的高精度 3D 模型。
- 高质量生成效果 :在几何细节、条件对齐和纹理质量等方面全面优于现有的开源和闭源模型,如几何细节的丰富程度、纹理的逼真度等,都能呈现出令人惊叹的效果。
- 多样的使用方式 :支持通过代码调用、Gradio 应用、Blender 插件以及官方网站快速体验,用户还可利用其构建 3D 基础设施,集成到自己的产品应用中。
- 多模态输入支持 :突破性支持多视图输入(2-4 张图片),可快速生成高精度 3D 资产。2025 年 3 月 18 日推出的多视角形状生成模型 Hunyuan3D-2mv 进一步增强了这一能力,使从不同角度输入生成更加详细的几何结构成为可能.
技术原理
- 两阶段生成流程 :首先是几何生成,由 Hunyuan3D-DiT 基于流扩散的扩散模型,生成与给定条件图像精确匹配的几何模型;然后是纹理生成,由 Hunyuan3D-Paint 基于强大的几何和扩散先验知识,为生成或手工制作的网格模型生成高分辨率且生动逼真的纹理贴图。
- 几何生成模型(Hunyuan3D-DiT) :基于可扩展的流式扩散变换器构建,通过 Hunyuan3D-ShapeVAE 将 3D 形状编码为连续的潜码,然后基于双流和单流的 Transformer 架构进行扩散模型训练,能捕捉输入图像的关键特征,支持文本或图像输入快速生成 3D 模型基础形态,模型参数量为 1.1B。
- 纹理生成模型(Hunyuan3D-Paint) :通过多视图扩散生成方案,结合几何条件(如法线图和位置图)生成多视图图像,烘焙为高分辨率纹理,支持 PBR 材质,模型参数量为 1.3B。
支持平台
Hunyuan3D 2.0 支持 Linux 和 Windows 系统,提供了 Gradio 应用、Blender 插件以及官方网站等多种使用方式,用户可以方便地选择适合自己的平台进行操作。
团队介绍
Hunyuan3D 2.0 由腾讯混元大模型团队研发。腾讯混元大模型团队在人工智能领域拥有深厚的技术积累和丰富的实践经验,致力于打造具有国际竞争力的 AI 大模型产品,为各行业提供高效、优质的 AI 解决方案。
项目资源
- 项目官网 :https://3d-models.hunyuan.tencent.com/
- Github 仓库 :https://github.com/Tencent/Hunyuan3D-2
- HuggingFace 模型库 :https://huggingface.co/tencent/Hunyuan3D-2
业务场景
- 游戏开发 :能快速生成高质量的 3D 游戏资产,如角色、道具和场景,显著提升游戏开发的效率,帮助开发者更高效地创造出更加丰富和逼真的游戏世界。
- UGC 社交与内容创作 :支持用户生成内容,用户可以通过文本描述、图片或草图快速生成个性化的 3D 模型,如个人 3D 形象、虚拟礼物等,为社交平台和内容创作带来更多的创意和乐趣。
- 电商与广告 :可将商品图片快速生成高精度的 3D 商品模型,用于线上展示和交互,提升用户体验,增强商品的吸引力和竞争力,为电商平台和广告商带来更大的商业价值。
- 工业制造与设计 :能根据设计草图或概念图快速生成 3D 工业产品原型,用于设计验证和展示。生成的模型支持多种格式,可以无缝对接 3D 打印工具,助力工业制造和设计行业的创新和发展。
- 地图导航 :腾讯地图基于 Hunyuan3D 2.0 推出自定义 3D 导航车标功能,创作效率提升了 91%,支持用户根据自己的喜好生成个性化的 3D 车标,丰富了地图导航的视觉体验。
- 教育与科研 :提供开源模型和代码,方便教育工作者和科研人员进行教学和研究,可用于开发教育工具,帮助学生更好地理解和实践 3D 建模,推动教育和科研事业的发展。