FastVLM – 高效视觉语言模型的创新突破

FastVLM 是什么

FastVLM 是苹果公司开发的一种高效视觉语言模型编码器系统,专为高分辨率图像处理优化。它能将高分辨率图像高效转换为 LLM 可处理的视觉 token,大幅提升图文理解的速度与效能,在保持高准确性的同时,显著减少编码时间和视觉 token 数量,降低整体延迟,实现延迟、模型大小和准确性之间的优化平衡,适合部署在移动设备等资源有限的端侧设备上。

核心功能

  • 高效编码高分辨率图像:采用 FastViTHD 编码器,即使在高分辨率图像下,也能快速将其转化为视觉 token,减少编码时间,如 FastVLM-0.5B 首词元响应速度比 LLaVA-OneVision-0.5B 快 85 倍,编码速度比同类模型快 85 倍。
  • 低延迟响应:在 LLaVA-1.5 设置中,首次 token 生成时间(TTFT)提升了 3.2 倍,FastVLM-7B(+Qwen2-7B LLM)优于 Cambrian-1-8B,首 token 输出快 7.9 倍。
  • 模型尺寸优化:视觉编码器尺寸比同类模型小 3.4 倍,便于在移动设备上部署,其最小模型版本体积仅为同类的 3.6 分之一。
  • 高准确性:在多项基准测试如 SeedBench、MMMU 等中,性能与更大模型相当,在 COCO Caption 基准上达到 82.1% 准确率。
  • 简化设计:仅通过缩放输入图像尺寸实现 token 数量和分辨率的平衡,无需额外的 token 剪枝。

技术原理

  • 混合视觉编码器 FastViTHD:结合卷积层和 Transformer 块的优点,卷积层处理高分辨率图像并基于下采样操作减少 token 数量,Transformer 块进一步提取高质量视觉特征。其包含多个阶段,每个阶段都有特定的深度和嵌入维度,如深度设置为[2,12,24,4,2],嵌入维度为[96,192,384,768,1536]。与简单扩展 FastViT 架构不同,FastVLM 引入额外阶段,在自注意力层之前进行下采样,使自注意力层只需处理下采样后的张量,减少计算量。
  • 优化的架构设计:通过动态分辨率调整、层次化令牌压缩和硬件优化等技术,如多尺度特征融合智能识别关键图像区域,减少冗余计算,将视觉令牌数量从 1536 减少到 576,计算负载降低 62.5%,并针对苹果自家芯片优化矩阵运算,支持 FP16 和 INT8 量化,确保低功耗运行。
  • 与 LLM 的协同工作:视觉编码器输出的视觉 token 基于投影层被转换为适合 LLM 处理的格式,LLM 用视觉 token 和文本输入进行融合理解,生成相应输出,实现视觉语言模型的功能。

支持平台

FastVLM 基于苹果自研的 MLX 框架开发,并借助 LLaVA 代码库进行训练,重点针对搭载 Apple Silicon 芯片的设备如 iPhone、iPad 和 Mac 进行端侧 AI 运算优化,也可在 Linux 系统上运行。苹果还发布了 iOS 演示应用,展示其在移动设备上的实时性能。

团队介绍

FastVLM 由苹果机器学习团队研发。苹果在人工智能领域投入大量资源进行研发,其团队汇聚众多机器学习和计算机视觉领域的顶尖专家,具备深厚的技术积累和创新能力。他们综合分析图像分辨率、视觉延迟、词元数量与 LLM 大小等因素,设计出 FastVLM,展现了在 AI 领域的技术实力。

项目资源

业务场景

  • 智能设备:为 iPhone、iPad、Mac 等苹果设备提供实时的视觉交互能力,如拍照后的图像描述生成、相册智能分类等。
  • 智能穿戴:助力智能眼镜等穿戴设备实现本地化的视觉理解与交互,如增强现实场景中的物体识别与信息提示。
  • 边缘计算:适用于边缘设备的多模态 AI 应用,如工业场景中的设备故障检测与图像识别,可在本地快速处理图像数据并给出结果。
  • 实时图文任务:在需要快速响应的图文任务中表现优异,如在线教育中的图像内容解析、智能客服的图像问答等。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注