WorldMem – 革新虚拟世界生成技术,构建持久一致的数字空间
WorldMem是什么
WorldMem是由南洋理工大学、北京大学和上海AI实验室联合推出的创新AI世界生成模型。该模型通过引入记忆机制,解决了传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中,智能体能够在多样化场景中自由探索,生成的世界在视角和位置变化后仍能保持几何一致性。此外,WorldMem还支持时间一致性建模,能够模拟动态变化,如物体对环境的影响。该模型在Minecraft数据集上进行了大规模训练,并在真实场景中验证了其有效性。
核心功能
- 保持一致性:在长时间生成中,确保虚拟世界的一致性。
- 模拟动态变化:能够模拟时间推移带来的变化,例如物体对环境的影响(如灯光融化积雪)。
- 支持交互:用户在虚拟世界中放置物体或进行操作,交互行为会被记录并影响后续生成。
- 多样化场景生成:支持在多种虚拟场景(如平原、沙漠、冰原等)中自由探索。
- 适用于真实场景:在真实世界数据集上验证生成一致性的能力。
技术原理
WorldMem的技术架构基于三大核心模块:
- 条件生成模块:基于条件扩散变换器(Conditional Diffusion Transformer)构建,结合Diffusion Forcing训练策略,支持自回归式的长时生成。通过外部动作信号(如移动、视角控制、物体放置等)引导第一人称视角的生成。
- 记忆读写模块:记忆库存储生成过程中的关键历史信息,每个记忆单元包含图像帧及其对应的状态(如视角位姿和时间戳)。记忆检索使用贪心匹配算法,基于视野重叠和时间差异计算相似度,高效筛选出与当前场景最相关的记忆单元。
- 记忆融合模块:将当前帧与记忆帧的状态嵌入(位姿+时间)结合,基于注意力计算提取与当前场景最相关的记忆信息,生成融合特征以引导当前帧的生成。使用Plücker坐标表示位姿,基于MLP映射时间戳,引入相对嵌入机制,提升模型的空间理解和细节保持能力。
支持平台
WorldMem支持在配备NVIDIA A100或RTX 4090等GPU的设备上运行。此外,该模型还兼容现有的Diffusion Transformer模型,进一步扩展了其应用范围。
团队介绍
WorldMem由南洋理工大学、北京大学和上海AI实验室联合开发。这些顶尖学术机构的专家团队在人工智能、计算机视觉和机器学习领域拥有深厚的技术积累和研究经验。他们的合作为WorldMem的技术创新和应用落地提供了坚实的基础。
项目资源
- 项目官网:https://xizaoqu.github.io/worldmem/
- GitHub仓库:https://github.com/xizaoqu/WorldMem
- arXiv技术论文:https://arxiv.org/pdf/2504.12369
- 在线体验Demo:https://huggingface.co/spaces/yslan/worldmem
业务场景
WorldMem在多个领域展现出巨大的应用潜力:
- 虚拟现实与游戏:生成高度一致的虚拟世界,提升沉浸式体验。
- 机器人与自动驾驶:通过长期环境记忆,支持导航与决策的鲁棒性。
- 学术研究:为AI世界模型、强化学习与环境交互研究提供强大工具。
- 内容创作:辅助生成动态场景,支持影视与动画制作。
- 数字孪生与建筑漫游:促进交互式数字孪生的发展,建筑物和城市的持久3D复制品能够记录结构变化和用户交互。