RoboBrain – 开源具身大脑模型,推动机器人智能进化
RoboBrain 是什么
RoboBrain 是由智源研究院开发的开源具身大脑模型,于 2025 年 3 月 29 日在中关村论坛上正式推出。它旨在推动单机智能向群体智能演进,通过模块化设计和多阶段训练策略,将复杂的机器人操作任务分解为可执行的子步骤,实现从抽象指令到具体动作的精准映射,突破了单机智能的限制,为构建具身智能开源统一生态加速场景应用提供底层技术支持。
核心功能
- 规划能力 :能将复杂的操作指令分解为可管理的子任务。例如,将“提起茶壶并将水倒入杯中”分解为“靠近茶壶并提起”“移动茶壶使壶嘴对准杯口”和“倾斜茶壶倒水”等步骤,还可对长程任务进行规划,如“整理货架”能分解为 20 + 粗细动作。
- 可操作性感知 :可识别和解释交互对象的可操作区域,如茶壶的把手或壶嘴,以及门把手、按钮等交互部件的有效接触区域,无论物体是否可变形、是否为机械部件,靠上还是靠下, semantic 或 geometric 触发器都能派上用场。
- 轨迹预测 :能预测完成操作所需的完整轨迹,如从当前位置到茶壶把手的运动轨迹,为机器人生成精确的动作轨迹,确保其能够准确地完成各项操作任务。
技术原理
- 模型架构 :基于 LLaVA 框架,由视觉编码器、投影器和大语言模型三个主要模块组成。视觉编码器使用 SigLIP 模型,将输入图像编码为视觉特征;投影器通过两层 MLP 将视觉特征映射到与文本嵌入相同的维度;大语言模型采用 Qwen2.5-7B-Instruct 模型,用于理解和生成文本指令。
- 多阶段训练策略 :采用多阶段训练策略提升性能。先在大规模通用视觉数据集上进行预训练,开发基础的视觉和语言理解能力;再在 ShareRobot 数据集上进行微调,增强任务规划、可操作区域感知和轨迹预测能力。此外,还引入长视频序列和高分辨率图像作为输入,使模型具备长历史帧记忆和高分辨率图像感知能力。
- 数据集支持 :训练依赖于 ShareRobot 数据集,这是一个高质量的异构数据集,包含任务规划、物体可操作区域和末端执行器轨迹等多维度标注,数据集的多样性和准确性经过精心设计,支持模型在复杂任务中的表现。
支持平台
RoboBrain 支持多种机器人平台,包括单臂机器人、双臂机器人、移动机器人和人形机器人等,无论是何种配置和品牌的机器人,RoboBrain 都能顺利操作,展现了其广泛的适应性和灵活性。
团队介绍
RoboBrain 由智源研究院开发。智源研究院在深度学习和人工智能领域持续创新,其团队成员在相关技术领域有着深厚的专业知识和丰富的研发经验,致力于推动人工智能技术的发展和应用,RoboBrain 的成功推出也彰显了团队在机器人智能领域的强大实力和创新能力。
项目资源
- 项目官网 :https://superrobobrain.github.io/
- Github 仓库 :https://github.com/FlagOpen/RoboBrain
- Huggingface 模型库 :https://huggingface.co/BAAI/RoboBrain
- arXiv 技术论文 :https://arxiv.org/pdf/2502.21257
业务场景
- 多机器人协作 :作为跨本体具身大小脑协作框架 RoboOS 的核心大脑模型,能实现多个不同类型的机器人之间的高效协作,如在工业流水线、仓储物流等场景中,协调百台 AGV 小车等多机器人系统协同工作。
- 复杂任务规划 :可处理多种复杂任务,如“Water plants”(浇花)、“Put the pot in the drawer”(将花盆放入抽屉)、“Cluster blocks of the same color into different corners”(将同色积木聚集到不同角落)等,为机器人生成详细的规划步骤。
- 可操作区域感知 :在需要精确操作的场景中,能识别不同物体的可操作区域,规划出合理的操作路径,如在“Cluster blocks of the same color into different corners”任务中,识别不同颜色积木的可操作区域。
- 实时反馈与优化 :结合 RoboOS 的端云协作能力,能实时接收执行反馈,根据环境变化动态调整策略,持续优化任务规划,提升鲁棒性,确保任务执行的稳定性和可靠性。