RoboBrain – 开源具身大脑模型，推动机器人智能进化

未分类 2025-06-23 0:29

RoboBrain 是什么

RoboBrain 是由智源研究院开发的开源具身大脑模型，于 2025 年 3 月 29 日在中关村论坛上正式推出。它旨在推动单机智能向群体智能演进，通过模块化设计和多阶段训练策略，将复杂的机器人操作任务分解为可执行的子步骤，实现从抽象指令到具体动作的精准映射，突破了单机智能的限制，为构建具身智能开源统一生态加速场景应用提供底层技术支持。

核心功能

规划能力 ：能将复杂的操作指令分解为可管理的子任务。例如，将“提起茶壶并将水倒入杯中”分解为“靠近茶壶并提起”“移动茶壶使壶嘴对准杯口”和“倾斜茶壶倒水”等步骤，还可对长程任务进行规划，如“整理货架”能分解为 20 + 粗细动作。
可操作性感知 ：可识别和解释交互对象的可操作区域，如茶壶的把手或壶嘴，以及门把手、按钮等交互部件的有效接触区域，无论物体是否可变形、是否为机械部件，靠上还是靠下， semantic 或 geometric 触发器都能派上用场。
轨迹预测 ：能预测完成操作所需的完整轨迹，如从当前位置到茶壶把手的运动轨迹，为机器人生成精确的动作轨迹，确保其能够准确地完成各项操作任务。

技术原理

模型架构 ：基于 LLaVA 框架，由视觉编码器、投影器和大语言模型三个主要模块组成。视觉编码器使用 SigLIP 模型，将输入图像编码为视觉特征；投影器通过两层 MLP 将视觉特征映射到与文本嵌入相同的维度；大语言模型采用 Qwen2.5-7B-Instruct 模型，用于理解和生成文本指令。
多阶段训练策略 ：采用多阶段训练策略提升性能。先在大规模通用视觉数据集上进行预训练，开发基础的视觉和语言理解能力；再在 ShareRobot 数据集上进行微调，增强任务规划、可操作区域感知和轨迹预测能力。此外，还引入长视频序列和高分辨率图像作为输入，使模型具备长历史帧记忆和高分辨率图像感知能力。
数据集支持 ：训练依赖于 ShareRobot 数据集，这是一个高质量的异构数据集，包含任务规划、物体可操作区域和末端执行器轨迹等多维度标注，数据集的多样性和准确性经过精心设计，支持模型在复杂任务中的表现。

支持平台

RoboBrain 支持多种机器人平台，包括单臂机器人、双臂机器人、移动机器人和人形机器人等，无论是何种配置和品牌的机器人，RoboBrain 都能顺利操作，展现了其广泛的适应性和灵活性。

团队介绍

RoboBrain 由智源研究院开发。智源研究院在深度学习和人工智能领域持续创新，其团队成员在相关技术领域有着深厚的专业知识和丰富的研发经验，致力于推动人工智能技术的发展和应用，RoboBrain 的成功推出也彰显了团队在机器人智能领域的强大实力和创新能力。

项目资源

项目官网 ：https://superrobobrain.github.io/
Github 仓库 ：https://github.com/FlagOpen/RoboBrain
Huggingface 模型库 ：https://huggingface.co/BAAI/RoboBrain
arXiv 技术论文 ：https://arxiv.org/pdf/2502.21257

业务场景

多机器人协作 ：作为跨本体具身大小脑协作框架 RoboOS 的核心大脑模型，能实现多个不同类型的机器人之间的高效协作，如在工业流水线、仓储物流等场景中，协调百台 AGV 小车等多机器人系统协同工作。
复杂任务规划 ：可处理多种复杂任务，如“Water plants”（浇花）、“Put the pot in the drawer”（将花盆放入抽屉）、“Cluster blocks of the same color into different corners”（将同色积木聚集到不同角落）等，为机器人生成详细的规划步骤。
可操作区域感知 ：在需要精确操作的场景中，能识别不同物体的可操作区域，规划出合理的操作路径，如在“Cluster blocks of the same color into different corners”任务中，识别不同颜色积木的可操作区域。
实时反馈与优化 ：结合 RoboOS 的端云协作能力，能实时接收执行反馈，根据环境变化动态调整策略，持续优化任务规划，提升鲁棒性，确保任务执行的稳定性和可靠性。