WorldMem – 革新虚拟世界生成技术，构建持久一致的数字空间

未分类 2025-06-22 14:15

WorldMem是什么

WorldMem是由南洋理工大学、北京大学和上海AI实验室联合推出的创新AI世界生成模型。该模型通过引入记忆机制，解决了传统世界生成模型在长时序下缺乏一致性的关键问题。在WorldMem中，智能体能够在多样化场景中自由探索，生成的世界在视角和位置变化后仍能保持几何一致性。此外，WorldMem还支持时间一致性建模，能够模拟动态变化，如物体对环境的影响。该模型在Minecraft数据集上进行了大规模训练，并在真实场景中验证了其有效性。

核心功能

保持一致性：在长时间生成中，确保虚拟世界的一致性。
模拟动态变化：能够模拟时间推移带来的变化，例如物体对环境的影响（如灯光融化积雪）。
支持交互：用户在虚拟世界中放置物体或进行操作，交互行为会被记录并影响后续生成。
多样化场景生成：支持在多种虚拟场景（如平原、沙漠、冰原等）中自由探索。
适用于真实场景：在真实世界数据集上验证生成一致性的能力。

技术原理

WorldMem的技术架构基于三大核心模块：

条件生成模块：基于条件扩散变换器（Conditional Diffusion Transformer）构建，结合Diffusion Forcing训练策略，支持自回归式的长时生成。通过外部动作信号（如移动、视角控制、物体放置等）引导第一人称视角的生成。
记忆读写模块：记忆库存储生成过程中的关键历史信息，每个记忆单元包含图像帧及其对应的状态（如视角位姿和时间戳）。记忆检索使用贪心匹配算法，基于视野重叠和时间差异计算相似度，高效筛选出与当前场景最相关的记忆单元。
记忆融合模块：将当前帧与记忆帧的状态嵌入（位姿+时间）结合，基于注意力计算提取与当前场景最相关的记忆信息，生成融合特征以引导当前帧的生成。使用Plücker坐标表示位姿，基于MLP映射时间戳，引入相对嵌入机制，提升模型的空间理解和细节保持能力。

支持平台

WorldMem支持在配备NVIDIA A100或RTX 4090等GPU的设备上运行。此外，该模型还兼容现有的Diffusion Transformer模型，进一步扩展了其应用范围。

团队介绍

WorldMem由南洋理工大学、北京大学和上海AI实验室联合开发。这些顶尖学术机构的专家团队在人工智能、计算机视觉和机器学习领域拥有深厚的技术积累和研究经验。他们的合作为WorldMem的技术创新和应用落地提供了坚实的基础。

项目资源

项目官网：https://xizaoqu.github.io/worldmem/
GitHub仓库：https://github.com/xizaoqu/WorldMem
arXiv技术论文：https://arxiv.org/pdf/2504.12369
在线体验Demo：https://huggingface.co/spaces/yslan/worldmem

业务场景

WorldMem在多个领域展现出巨大的应用潜力：

虚拟现实与游戏：生成高度一致的虚拟世界，提升沉浸式体验。
机器人与自动驾驶：通过长期环境记忆，支持导航与决策的鲁棒性。
学术研究：为AI世界模型、强化学习与环境交互研究提供强大工具。
内容创作：辅助生成动态场景，支持影视与动画制作。
数字孪生与建筑漫游：促进交互式数字孪生的发展，建筑物和城市的持久3D复制品能够记录结构变化和用户交互。

WorldMem – 革新虚拟世界生成技术，构建持久一致的数字空间

发表回复 取消回复

发表回复取消回复