MineWorld – 开启智能交互新视界
MineWorld是什么
MineWorld是微软研究院于2025年4月14日开源的基于《我的世界》(Minecraft)的实时交互式世界模型,其目标是为智能体构建可感知、可推理、可行动的动态环境,填补了现有世界模型在实时交互方面的空白。
核心功能
- 高生成质量 :基于视觉-动作自回归 Transformer,能根据视觉和动作生成连贯、高保真的游戏帧,为玩家带来更逼真的视觉体验。
- 强可控性 :通过动作跟随能力的基准测试,展现出精确且一致的行为,能根据输入动作生成准确的游戏场景,确保玩家的指令能够得到精准执行。
- 快速推理速度 :采用并行解码算法,可实现每秒4至7帧的生成速度,支持实时互动,大大提升了游戏的流畅性和交互性。
- 作为游戏代理 :在训练过程中同时预测游戏状态和动作,可以作为独立的游戏代理自主进行游戏,具备一定的智能决策能力。
- 实时交互能力 :用户可以通过 Web 演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作,如同在真实游戏中操作一般。
技术原理
- 视觉-动作自回归 Transformer :将游戏场景和玩家动作转化为离散的 token 序列,实现视觉与动作的联合建模。其中,图像标记器采用 VQ-VAE 架构,将游戏场景分割为离散的视觉标记;动作标记器将玩家的连续动作和离散动作量化为不同的标记;Transformer 解码器基于 LLaMA 架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。
- 并行解码算法 :为实现实时交互开发,利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记,与传统的自回归解码算法相比,能显著提升生成速度。
- 训练与推理 :模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。在推理阶段,根据输入的当前游戏状态和动作,生成后续的游戏场景,借助并行解码算法快速生成高质量的游戏帧。
- 评估指标 :提出了新的评估指标,用于评估生成场景的视觉质量和动作跟随能力,例如通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。
支持平台
MineWorld主要基于《我的世界》游戏平台开发,为该游戏的玩家和开发者提供了一个全新的实时交互式世界模型,未来也有望拓展到其他类似的沙盒类游戏平台。
团队介绍
MineWorld由微软研究院开发,该团队在人工智能领域拥有深厚的技术积累和丰富的研发经验,其研究成果不仅推动了游戏AI的发展,也为其他领域的人工智能应用提供了有益的借鉴。
项目资源
业务场景
- 游戏开发与测试 :游戏开发者可以利用MineWorld快速搭建游戏场景,测试新的游戏玩法和机制,提高开发效率,降低开发成本。
- AI代理训练与评估 :为AI代理提供了实时交互的训练环境,帮助其更好地学习和适应复杂的游戏环境,提升决策和行动能力。
- 教育与研究 :在教育领域,可用于教授人工智能、机器学习等相关的知识和技能,为学生和研究人员提供一个直观、生动的学习和研究平台;在学术研究方面,为具身智能、强化学习等领域的研究提供了有力的支持。
- 娱乐与互动体验 :通过与MineWorld的实时交互,玩家可以获得更加个性化、沉浸式的游戏体验,开启全新的游戏娱乐方式。