Matrix-Game – 重塑游戏世界交互体验的先锋

Matrix-Game 是什么

Matrix-Game 是昆仑万维于 2025 年 5 月 13 日正式开源的工业界首个 10B + 空间智能大模型,也是 17B + 交互式世界基础模型。作为 Matrix-Zero 世界模型中的可交互视频生成大模型,它专注于游戏世界建模,能让用户通过简单指令如键盘、鼠标操作,自由探索、操控甚至创造细节丰富、物理规则合理的虚拟世界,为构建通用虚拟世界基座树立了新标杆。

核心功能

  • 可控视频生成 :用户输入简单指令,即可生成连贯、可控的互动视频,实现角色的移动、跳跃、攻击等动态行为,以及视角的灵活变换。
  • 多场景泛化 :对多种 Minecraft 游戏场景如森林、沙滩、沙漠、冰川等具有泛化能力,还有潜力泛化到非 Minecraft 游戏环境,适应不同地形、天气和生物群系。
  • 自回归式长视频生成 :支持自回归式长视频生成,确保时间一致性和环境适应性,实现动作与视角的丝滑衔接,为开发沉浸式体验提供基础。
  • 系统化评估 :提出统一 GameWorld Score 标准,从视觉质量、时序质量、动作可控性与物理规则理解四个维度量化模型性能。

技术原理

  • 两阶段训练策略 :先利用大规模无标签 Minecraft 游戏视频数据预训练,让模型学习环境基本特征和动态规律;再基于带有键盘与鼠标控制信号的 Minecraft 与 Unreal 可控视频数据进行细粒度可控训练,使模型能根据用户输入生成交互式视频。
  • 图像到世界建模 :以单张参考图像为起点,不依赖语言提示,仅基于视觉信号建模空间几何、物体运动及物理交互,生成交互式视频。
  • 自回归式视频生成 :支持自回归方式扩展生成长度,每次以前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间连贯性,并引入多种策略缓解时序漂移和误差累积。
  • 可控交互设计 :将键盘动作用离散 token 表达,视角移动动作用连续 token 表达,基于 GameFactory 控制模块,融入多模态 Diffusion Transformer 架构,用 Classifier-free guidance 策略提升对控制信号的鲁棒响应能力。

支持平台

Matrix-Game 支持 Windows、Linux 等主流操作系统,可在常见的硬件配置上运行,对 GPU 等硬件有一定的要求,以确保模型能够高效地进行视频生成和交互处理。

团队介绍

Matrix-Game 背后的团队来自昆仑万维,昆仑万维在 AI 领域拥有丰富的研发经验和强大的技术实力,长期关注空间智能的新进展,投入大量资源进行技术研发和创新,致力于推动 AI 技术在游戏、元宇宙等领域的应用和发展。

项目资源

业务场景

  • 虚拟游戏世界快速搭建 :可低成本、高效率创建多样化游戏地图与交互环境,提升关卡设计与任务构建的自由度。
  • 影视与元宇宙内容生产 :支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。
  • 具身智能体训练与数据生成 :具备生成大规模交互视频的能力,可为具身智能体创建复杂虚拟环境,助力其任务执行与推理能力的提升。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注