Vid2World – 从视频扩散模型到交互式世界模型的创新转变

未分类 2025-06-22 13:54

Vid2World是什么

Vid2World是由清华大学与重庆大学联合开发的创新框架，旨在将全序列、非因果的被动视频扩散模型（VDM）转化为自回归、交互式、动作条件化的世界模型。这一技术突破了传统视频生成模型与交互式决策系统之间的技术壁垒，为复杂环境下的高保真视频生成和动作控制提供了新的解决方案。

核心功能

Vid2World具备以下核心功能：

技术原理

Vid2World的技术原理基于两大核心技术：

视频扩散因果化：通过在时间注意力层应用因果掩码，并结合时间卷积层的混合权重转移方案，解决了传统VDM的非因果性问题。此外，引入Diffusion Forcing技术，为每个帧独立采样噪声水平，支持自回归生成。
因果动作引导：通过轻量级MLP网络对动作进行编码，并将其融入对应帧中。在训练过程中采用动作独立丢弃策略，迫使模型同时掌握条件和非条件得分函数的学习。

支持平台

Vid2World支持多种开发和部署平台，包括Unity Asset Package、Omniverse Extension和ROS节点，适配不同的开发管线。此外，它还提供了针对机器人、游戏和自动驾驶等垂直领域的预配置参数模板。

团队介绍

Vid2World由清华大学和重庆大学的研究团队联合开发。团队成员在人工智能、视频生成和强化学习等领域具有深厚的研究背景和技术积累，致力于推动视频生成模型与交互式决策系统的融合。

项目资源

业务场景

Vid2World在多个业务场景中展现出强大的应用潜力：