Matrix-Game – 重塑游戏世界交互体验的先锋
Matrix-Game 是什么
Matrix-Game 是昆仑万维于 2025 年 5 月 13 日正式开源的工业界首个 10B + 空间智能大模型,也是 17B + 交互式世界基础模型。作为 Matrix-Zero 世界模型中的可交互视频生成大模型,它专注于游戏世界建模,能让用户通过简单指令如键盘、鼠标操作,自由探索、操控甚至创造细节丰富、物理规则合理的虚拟世界,为构建通用虚拟世界基座树立了新标杆。
核心功能
- 可控视频生成 :用户输入简单指令,即可生成连贯、可控的互动视频,实现角色的移动、跳跃、攻击等动态行为,以及视角的灵活变换。
- 多场景泛化 :对多种 Minecraft 游戏场景如森林、沙滩、沙漠、冰川等具有泛化能力,还有潜力泛化到非 Minecraft 游戏环境,适应不同地形、天气和生物群系。
- 自回归式长视频生成 :支持自回归式长视频生成,确保时间一致性和环境适应性,实现动作与视角的丝滑衔接,为开发沉浸式体验提供基础。
- 系统化评估 :提出统一 GameWorld Score 标准,从视觉质量、时序质量、动作可控性与物理规则理解四个维度量化模型性能。
技术原理
- 两阶段训练策略 :先利用大规模无标签 Minecraft 游戏视频数据预训练,让模型学习环境基本特征和动态规律;再基于带有键盘与鼠标控制信号的 Minecraft 与 Unreal 可控视频数据进行细粒度可控训练,使模型能根据用户输入生成交互式视频。
- 图像到世界建模 :以单张参考图像为起点,不依赖语言提示,仅基于视觉信号建模空间几何、物体运动及物理交互,生成交互式视频。
- 自回归式视频生成 :支持自回归方式扩展生成长度,每次以前一视频片段的最后几帧作为运动上下文,逐段递进生成,确保时间连贯性,并引入多种策略缓解时序漂移和误差累积。
- 可控交互设计 :将键盘动作用离散 token 表达,视角移动动作用连续 token 表达,基于 GameFactory 控制模块,融入多模态 Diffusion Transformer 架构,用 Classifier-free guidance 策略提升对控制信号的鲁棒响应能力。
支持平台
Matrix-Game 支持 Windows、Linux 等主流操作系统,可在常见的硬件配置上运行,对 GPU 等硬件有一定的要求,以确保模型能够高效地进行视频生成和交互处理。
团队介绍
Matrix-Game 背后的团队来自昆仑万维,昆仑万维在 AI 领域拥有丰富的研发经验和强大的技术实力,长期关注空间智能的新进展,投入大量资源进行技术研发和创新,致力于推动 AI 技术在游戏、元宇宙等领域的应用和发展。
项目资源
- 项目官网 :https://matrix-game-homepage.github.io/
- GitHub 仓库 :https://github.com/SkyworkAI/Matrix-Game
- HuggingFace 模型库 :https://huggingface.co/Skywork/Matrix-Game
- 技术论文 :https://github.com/SkyworkAI/Matrix-Game/blob/main/assets/report.pdf
业务场景
- 虚拟游戏世界快速搭建 :可低成本、高效率创建多样化游戏地图与交互环境,提升关卡设计与任务构建的自由度。
- 影视与元宇宙内容生产 :支持高保真、物理一致的动态场景合成,为沉浸式体验开发与创意内容生成提供通用世界建模基础。
- 具身智能体训练与数据生成 :具备生成大规模交互视频的能力,可为具身智能体创建复杂虚拟环境,助力其任务执行与推理能力的提升。