SmolVLA – 开源轻量级视觉 – 语言 – 动作模型的创新实践

SmolVLA 是什么

SmolVLA 是由人工智能开发平台 Hugging Face 推出的开源轻量级视觉 - 语言 - 动作模型,专为机器人领域设计。它拥有 4.5 亿参数,规模小到可以在 CPU 上运行,单个消费级 GPU 上训练,甚至可以在 MacBook 上运行,并且可以在经济实惠的硬件如 SO-100、SO-101 等上进行测试和部署。SmolVLA 基于开源社区共享的数据集进行预训练,数据集标签为 lerobot。

核心功能

  • 多模态输入处理 :能够处理多种输入,包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征,将语言指令标记化后输入解码器,将传感运动状态通过线性层投影到一个标记上,与语言模型的标记维度对齐。
  • 动作序列生成 :包含一个动作专家模块,这是一个轻量级的 Transformer,能基于视觉 - 语言模型的输出,生成未来机器人的动作序列块。采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。
  • 高效推理与异步执行 :引入异步推理堆栈,将动作执行与感知和预测分离,使机器人可以在快速变化的环境中更快速地响应,提高了响应速度和任务吞吐量,响应速度可提高 30%,任务吞吐量提高 2 倍。

技术原理

  • 视觉 - 语言模型(VLM) :使用 SmolVLM2 作为其 VLM 主干,经过优化能处理多图像输入,包含 SigLIP 视觉编码器和 SmolLM2 语言解码器。图像标记通过视觉编码器提取,语言指令被标记化后直接输入解码器,传感运动状态则通过线性层投影到一个标记上,与语言模型的标记维度对齐。解码器层处理连接的图像、语言和状态标记,得到的特征随后传递给动作专家。
  • 动作专家 :动作专家是一个轻量级的 Transformer,基于 VLM 的输出,生成未来机器人的动作序列块。采用流匹配技术进行训练,通过引导噪声样本回归真实数据分布来学习动作生成,实现高精度的实时控制。在训练过程中,将随机噪声添加到机器人的真实动作序列中,并要求模型预测将其 “修正” 回正确轨迹的 “修正向量”,这在动作空间上形成了一个平滑的向量场,帮助模型学习准确且稳定的控制策略。
  • 视觉 Token 减少 :为了提高效率,限制每帧图像的视觉 Token 数量为 64 个,大大减少了处理成本。
  • 层跳跃加速推理 :跳过 VLM 中的一半层进行计算,有效地将计算成本减半,同时保持了良好的性能。
  • 交错注意力层 :交替使用交叉注意力和自注意力层,提高了多模态信息整合的效率,加快推理速度。
  • 异步推理 :让机器人的 “手” 和 “眼” 能独立工作,在这种策略下,机器人可以一边执行当前动作,一边已经开始处理新的观察并预测下一组动作,消除推理延迟,提高控制频率。

支持平台

SmolVLA 可在多种硬件平台上运行,包括消费级硬件如 MacBook,以及经济实惠的机器人系统如 SO-100、SO-101 等。它支持在 CPU 上运行,也可在单个消费级 GPU 上进行训练。

团队介绍

SmolVLA 是由 Hugging Face 团队推出。Hugging Face 是一家知名的人工智能开发平台,致力于推动人工智能技术的发展和应用,其在自然语言处理等领域有着丰富的经验和深厚的技术积累。该团队还推出了 LeRobot 等一系列与机器人相关的项目,并且不断扩大其机器人软硬件生态系统。

项目资源

业务场景

SmolVLA 主要应用于机器人领域,可在仿真任务如 LIBERO、Meta-World 以及实际任务如 SO100、SO101 等场景中使用。它能够帮助机器人更好地理解和处理视觉、语言和动作信息,实现更高效、更精准的操作和交互,为机器人的研究和应用提供了有力的支持,降低了机器人研究的门槛,使得更广泛的研究人员、教育者和爱好者能够参与到机器人技术的探索中。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注