Being-M0 – 人形机器人通用动作生成模型的创新与应用
Being-M0是由北京大学、中国人民大学等顶尖学术机构联合开发的首个大规模人形机器人通用动作生成模型。它基于业界首个百万级动作数据集MotionLib,通过创新的MotionBook编码技术,将动作序列高效转化为二维图像进行表示和生成。这一模型不仅验证了大数据与大模型在动作生成领域的技术可行性,还显著提升了动作生成的多样性和语义对齐精度,实现了从人类动作到多款人形机器人的高效迁移。
核心功能
Being-M0的核心功能包括:
- 文本驱动动作生成:能够根据自然语言描述生成相应的人类动作序列,例如输入“挥手打招呼”即可生成相应的动作。
- 动作迁移:将生成的人类动作迁移到多种人形机器人平台,如Unitree H1、H1-2、G1等,使机器人能够执行类似的人类动作。
- 多模态数据支持:支持RGB视频、深度信息等多种模态数据,能够处理多人交互场景。
技术原理
Being-M0的技术原理基于以下三大创新:
- 大规模数据集MotionLib:包含超过120万条动作序列,是现有最大公开数据集的15倍。数据集通过自动化处理流程从公开数据源和在线平台收集,并进行了细致的标注。
- MotionBook编码技术:将动作序列建模为单通道二维动作图像,在时间轴和关节轴上分别构建编码空间,完整保留动作的多维结构特征。通过降维投影技术,省去传统codebook查找环节,使动作词表容量提升两个数量级。
- 优化+学习的两阶段解决方案:在动作迁移方面,优化阶段通过多目标优化算法生成符合机器人运动学约束的动作序列;学习阶段则运用轻量级MLP网络学习从人体动作到人形机器人动作的映射关系。
支持平台
Being-M0支持多种主流人形机器人平台,包括Unitree H1、H1-2、G1等。这种跨平台的适配能力使其能够广泛应用于不同的机器人应用场景。
团队介绍
Being-M0由北京大学、中国人民大学等机构的研究团队共同开发。团队成员在人工智能、机器人技术、数据处理等领域拥有深厚的专业背景和丰富的研究经验,致力于推动人形机器人动作生成技术的发展。
项目资源
- 项目官网:https://beingbeyond.github.io/Being-M0/
- arXiv技术论文:https://arxiv.org/pdf/2410.03311
- GitHub:https://github.com/BeingBeyond/Being-M0
业务场景
Being-M0的应用场景广泛,包括:
- 人形机器人控制:使机器人能够根据文本指令完成特定动作。
- 动画制作:快速生成高质量的动作序列,显著提高制作效率。
- 虚拟现实与增强现实:实时生成互动动作,增强用户的沉浸体验。
- 人机交互:提升机器人对人类指令的理解能力,增强协作效果。
- 运动分析与康复:辅助运动员训练和患者康复。