SpatialLM – 开启三维空间理解新纪元
SpatialLM是什么
SpatialLM是杭州群核科技自主研发的一款专为三维空间理解设计的大语言模型。它能够从普通手机或相机拍摄的视频中,快速生成物理正确的3D场景布局,无需依赖昂贵的激光雷达或专业设备,显著降低了数据采集门槛。
核心功能
- 三维重建 :可处理单目视频序列、RGBD图像和LiDAR传感器数据等多源点云数据,生成高密度的3D点云模型。
- 场景理解 :精准识别场景中的建筑元素以及物体的语义边界框,并以结构化脚本语言输出。
- 物理规则嵌入 :内置 “家具不能悬空”“通道宽度≥0.8米” 等物理常识,确保生成的3D布局符合物理规则。
- 空间认知与推理 :突破传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力。
- 低成本数据采集 :普通手机或相机拍摄的视频即可作为数据输入,降低了开发者的数据采集门槛。
- 具身智能训练 :为具身智能领域提供基础的空间理解训练框架,支持机器人在复杂环境中的导航、避障和任务执行能力。
- 虚拟场景生成 :可将现实世界的数据转化为虚拟环境中的丰富场景,为虚拟现实、增强现实和游戏开发等领域提供支持。
技术原理
SpatialLM的核心技术基于MASt3R-SLAM算法。其工作原理是将输入的RGB视频拆解为帧,提取物体的细节空间点,计算深度和位置,生成高密度的3D点云模型。然后,点云编码器将点云数据转化为紧凑的特征向量,保留场景中物体的关键几何和语义信息。接着,通过大语言模型(LLM),将点云特征转化为结构化的场景代码,包含空间结构的坐标和尺寸,标注了物体的语义边界框。最后,场景代码被进一步转换为结构化的3D场景布局,明确标注出每个物体的三维坐标、尺寸参数和类别信息。
支持平台
SpatialLM提供了两种模型版本,分别为基于Llama的SpatialLM-Llama-1B和基于Qwen的SpatialLM-Qwen-0.5B,参数规模分别为1亿和0.5亿。模型已在HuggingFace、GitHub及魔搭社区等平台面向全球开发者开放。
团队介绍
SpatialLM由ManyCore Research Team开发,该团队隶属于杭州群核科技。群核科技在GTC2025全球大会上宣布开源SpatialLM,引发业界广泛关注。团队专注于空间理解技术的研发,致力于推动机器人训练、建筑设计及AR/VR等领域的发展,其首席科学家周子寒表示,SpatialLM旨在帮助不具备模型开发能力的机器人企业,通过微调快速提升空间理解能力。
项目资源
- GitHub仓库 :https://github.com/manycore-research/SpatialLM
- HuggingFace模型库 :https://huggingface.co/manycore-research/SpatialLM-Llama-1B
业务场景
- 机器人领域 :可作为具身智能基础训练框架,让机器人理解复杂环境变化,快速适应并执行任务,如导航、避障等。如餐厅送餐机器人可基于SpatialLM更好地识别路径和目标位置。
- 建筑与室内设计领域 :帮助设计师快速生成3D场景布局,提高设计效率,降低成本。设计师可通过手机拍摄现场视频,快速获取初始3D模型,进行设计修改和完善。
- 游戏开发领域 :将现实世界的数据转化为虚拟环境中的丰富场景,为游戏开发提供物理正确的3D场景,提升游戏的真实性和沉浸感。
- 虚拟现实与增强现实领域 :支持虚拟现实、增强现实应用的开发,为用户提供更逼真、更自然的交互体验。
- 文物保护与修复领域 :对文物或历史建筑进行数字化记录和建模,为文物保护和修复提供精确的三维数据支持。