GR00T N1 – 开启通用人形机器人新时代的基础模型

GR00T N1是什么

GR00T N1 是英伟达推出的全球首个开源基础模型,专为通用人形机器人设计。它基于多模态输入,如语言和图像,能在多样化环境中实现操作任务。其名称中的 “GR00T” 代表 “Generalist Robot 00 Technology”(通用机器人 00 技术),“N1” 表明这是该系列的第一个版本。

核心功能

  • 通用操作任务执行:可在不同环境中完成抓取、搬运、双臂协调等操作任务。
  • 多模态输入处理:同时处理语言指令和视觉图像,依自然语言指令执行复杂操作。
  • 跨机器人形态适应性:适应不同机器人平台,如 Fourier GR-1 和 1X Neo,具有通用性。
  • 复杂任务推理与规划:执行需持续上下文理解和多种技能整合的复杂多步任务。
  • 高效数据利用与训练:融合互联网规模数据、合成数据和真实机器人数据预训练,提升性能和泛化能力,减少对大规模标注数据依赖。

技术原理

  • 双系统架构
    • 视觉-语言模型(System 2):基于 NVIDIA-Eagle 和 SmolLM-1.7B 构建,负责用视觉和语言指令理解环境,进行推理和规划,输出动作计划。
    • 扩散变换器(System 1):作为动作模型,将视觉-语言模型的计划转化为精确的连续动作,控制机器人运动。
  • 数据策略:预训练数据包括互联网视频数据、合成数据和真实机器人数据。无监督学习从大规模未标注的人类视频数据中提取运动模式,提升机器人学习效率。
  • 模型训练与优化:在大规模数据上预训练,学习通用运动和操作模式。针对特定机器人平台、任务和环境微调,提升适应性和性能。推理阶段减少扩散步骤等优化计算效率,确保实时性。

支持平台

  • 硬件平台:支持多种机器人硬件平台,如 Fourier GR-1、1X Neo 等,可适配不同自由度与控制模式的机器人。
  • 软件平台:基于英伟达的 AI 和机器人开发平台,如 CUDA、cuDNN、TensorRT 等,还支持 Isaac Sim 仿真平台,可加速虚拟测试,减少实体原型开发成本。

团队介绍

英伟达是一家在图形处理单元(GPU)和人工智能领域处于领先地位的公司,在计算图形、深度学习和高性能计算等方面拥有丰富的技术积累和创新能力。其团队在机器人领域有众多专业人士,他们在人工智能、计算机视觉、自然语言处理、机器人控制等方面具有深厚的专业知识和丰富的实践经验,为 GR00T N1 的研发提供了强大的技术支持和保障。

项目资源

业务场景

  • 制造业:执行物料搬运、零部件组装、产品检测等任务,提高生产效率和质量,降低人工成本。
  • 仓储物流:优化仓储管理,实现货物的自动存储、检索和运输,提高仓库空间利用率和物流效率。
  • 家庭服务:协助家务劳动,如清洁、做饭、照顾老人和儿童等,为人们的生活提供便利。
  • 医疗康复:辅助康复训练,为患者提供个性化的康复方案,提高康复效果和生活质量。
  • 零售业:提升客户服务效率,如商品陈列、库存管理、顾客引导等,改善购物体验。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注