SmolVLA – 开源轻量级视觉 – 语言 – 动作模型的创新实践

未分类 2025-06-22 13:26

SmolVLA 是什么

SmolVLA 是由人工智能开发平台 Hugging Face 推出的开源轻量级视觉 - 语言 - 动作模型，专为机器人领域设计。它拥有 4.5 亿参数，规模小到可以在 CPU 上运行，单个消费级 GPU 上训练，甚至可以在 MacBook 上运行，并且可以在经济实惠的硬件如 SO-100、SO-101 等上进行测试和部署。SmolVLA 基于开源社区共享的数据集进行预训练，数据集标签为 lerobot。

核心功能

多模态输入处理 ：能够处理多种输入，包括多幅图像、语言指令以及机器人的状态信息。通过视觉编码器提取图像特征，将语言指令标记化后输入解码器，将传感运动状态通过线性层投影到一个标记上，与语言模型的标记维度对齐。
动作序列生成 ：包含一个动作专家模块，这是一个轻量级的 Transformer，能基于视觉 - 语言模型的输出，生成未来机器人的动作序列块。采用流匹配技术进行训练，通过引导噪声样本回归真实数据分布来学习动作生成，实现高精度的实时控制。
高效推理与异步执行 ：引入异步推理堆栈，将动作执行与感知和预测分离，使机器人可以在快速变化的环境中更快速地响应，提高了响应速度和任务吞吐量，响应速度可提高 30%，任务吞吐量提高 2 倍。

技术原理

视觉 - 语言模型（VLM） ：使用 SmolVLM2 作为其 VLM 主干，经过优化能处理多图像输入，包含 SigLIP 视觉编码器和 SmolLM2 语言解码器。图像标记通过视觉编码器提取，语言指令被标记化后直接输入解码器，传感运动状态则通过线性层投影到一个标记上，与语言模型的标记维度对齐。解码器层处理连接的图像、语言和状态标记，得到的特征随后传递给动作专家。
动作专家 ：动作专家是一个轻量级的 Transformer，基于 VLM 的输出，生成未来机器人的动作序列块。采用流匹配技术进行训练，通过引导噪声样本回归真实数据分布来学习动作生成，实现高精度的实时控制。在训练过程中，将随机噪声添加到机器人的真实动作序列中，并要求模型预测将其 “修正” 回正确轨迹的 “修正向量”，这在动作空间上形成了一个平滑的向量场，帮助模型学习准确且稳定的控制策略。
视觉 Token 减少 ：为了提高效率，限制每帧图像的视觉 Token 数量为 64 个，大大减少了处理成本。
层跳跃加速推理 ：跳过 VLM 中的一半层进行计算，有效地将计算成本减半，同时保持了良好的性能。
交错注意力层 ：交替使用交叉注意力和自注意力层，提高了多模态信息整合的效率，加快推理速度。
异步推理 ：让机器人的 “手” 和 “眼” 能独立工作，在这种策略下，机器人可以一边执行当前动作，一边已经开始处理新的观察并预测下一组动作，消除推理延迟，提高控制频率。

支持平台

SmolVLA 可在多种硬件平台上运行，包括消费级硬件如 MacBook，以及经济实惠的机器人系统如 SO-100、SO-101 等。它支持在 CPU 上运行，也可在单个消费级 GPU 上进行训练。

团队介绍

SmolVLA 是由 Hugging Face 团队推出。Hugging Face 是一家知名的人工智能开发平台，致力于推动人工智能技术的发展和应用，其在自然语言处理等领域有着丰富的经验和深厚的技术积累。该团队还推出了 LeRobot 等一系列与机器人相关的项目，并且不断扩大其机器人软硬件生态系统。

项目资源

官网：https://hf.co/lerobot/smolvla_base
源码：https://github.com/TheRobotStudio/SO-ARM100
论文：https://hf.co/papers/2506.01844

业务场景

SmolVLA 主要应用于机器人领域，可在仿真任务如 LIBERO、Meta-World 以及实际任务如 SO100、SO101 等场景中使用。它能够帮助机器人更好地理解和处理视觉、语言和动作信息，实现更高效、更精准的操作和交互，为机器人的研究和应用提供了有力的支持，降低了机器人研究的门槛，使得更广泛的研究人员、教育者和爱好者能够参与到机器人技术的探索中。

SmolVLA – 开源轻量级视觉 – 语言 – 动作模型的创新实践

发表回复 取消回复

发表回复取消回复