StreamBridge – 实时视频流理解的创新框架

StreamBridge是由苹果公司与复旦大学联合开发的一款端侧视频大语言模型(Video-LLMs)框架,旨在帮助人工智能系统实时理解直播视频流。该框架通过内存缓冲区和轮次衰减压缩策略,支持长上下文的交互,并采用轻量级激活模型以实现主动响应功能。此外,研究团队还发布了包含约60万个样本的Stream-IT数据集,以增强流式视频理解的能力。

核心功能

StreamBridge的核心功能包括:

  • 多轮实时理解:支持长上下文的多轮交互,确保在处理最新视频片段时能够保留历史视觉和对话信息。
  • 主动响应:模型能够主动监控视频流,及时提供反馈,而不需要明确的指令。
  • 灵活集成:可无缝融入现有的视频大语言模型中,无需进行大规模修改。
  • 数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样的指令格式,便于模型的训练和优化。

技术原理

StreamBridge的技术架构包括:

  • 记忆缓冲区:用于存储和检索视频帧的嵌入信息,从而支持多轮交互。每个新的视频帧都会被独立编码并追加到缓冲区中。
  • 轮次衰减压缩策略:在输入嵌入长度超过预设最大值时,模型会从最早的对话轮次开始逐帧合并视觉标记,通过平均池化操作保留最近的视觉上下文。
  • 轻量级激活模型:独立于主视频大语言模型运行,接收当前帧及用户查询作为输入,输出二进制信号以指示主模型是否生成响应。
  • Stream-IT数据集:基于大规模视频字幕语料库筛选生成,包含60万个样本,支持多种任务格式,如密集视频字幕、顺序步骤识别和基于视频的问题回答。

支持平台

StreamBridge框架设计灵活,能够无缝集成到现有的视频大语言模型中,如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B等。这种设计使得更多的开发者能够轻松地将其应用到自己的项目中,而无需对基础模型进行大规模修改。

团队介绍

StreamBridge由苹果公司与复旦大学联合开发,结合了苹果在人工智能领域的先进技术和复旦大学在学术研究上的深厚积累。这一合作模式充分发挥了双方的优势,推动了视频流理解技术的创新和发展。

项目资源

业务场景

StreamBridge在多个业务场景中展现出强大的应用潜力:

  • 自动驾驶:能够实时理解路况并做出决策,提升自动驾驶的安全性和可靠性。
  • 智能安防:通过实时监控视频流,主动识别异常行为并发出警报。
  • 智慧城市:支持智能交通管理、公共安全监控等场景。
  • 视频会议:能够实时理解会议内容并提供智能辅助功能。

StreamBridge的推出,标志着视频理解技术在实时性和交互性方面取得了重要突破,为未来的人工智能应用提供了更广阔的发展空间。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注