I2V3D – 从图像到视频的革命性转变

未分类 2025-06-23 10:00

I2V3D 是什么

I2V3D 是由香港城市大学和微软 GenAI 联合研发的图像到视频生成框架，于 2025 年 3 月 18 日发布，旨在将静态图像转换为动态视频，基于 3D 几何引导实现精确的动画控制。

核心功能

技术原理

3D 几何重建 ：从单张图像重建完整 3D 场景几何结构，前景对象转为 3D 网格，背景经多视图生成和 3D 网格重建完成。
两阶段视频生成 ：先用定制图像扩散模型和多视图增强、扩展注意力机制生成高质量关键帧；再基于双向引导在关键帧间生成平滑视频帧，无需额外训练，确保时间连贯性。
深度与特征控制 ：以深度图和渲染特征为控制信号，保证生成视频与 3D 渲染结果一致。
扩展注意力机制 ：增强帧与帧之间时空一致性，避免视频闪烁或不连贯。

支持平台

I2V3D 主要运行在 Python 环境下，依赖于 PyTorch 等深度学习框架，可在常见的操作系统上运行，如 Windows、Linux 等，但对硬件有一定要求，需要具备一定计算能力的 GPU 来加速模型训练和推理过程。

团队介绍

I2V3D 由香港城市大学与微软 GenAI 团队合作开发。香港城市大学在计算机科学领域，尤其是计算机图形学和人工智能方面有深厚研究基础和丰富教学经验，微软 GenAI 团队则在生成式人工智能技术研发和应用方面处于领先地位，双方强强联合，打造了这一创新性成果。

项目资源

业务场景